Técnicas Eda para supuestos de prueba
Existen varias técnicas de análisis de datos exploratorio (EDA) que puede utilizar para probar hipótesis acerca de un conjunto de datos. Estos incluyen ejecutar secuencia de trama, se quedan trama, histograma y gráfica de probabilidad normal.
Ejecutar secuencia de trama
Muchas técnicas estadísticas se basan en la suposición de que los datos que se analiza tiene las siguientes propiedades:
Variables independientes
Variables extraídas de una distribución de probabilidad común
Las variables con parámetros comunes (por ejemplo, media y desviación estándar)
LA ejecutar secuencia de trama pruebas de si los datos se ajusta a estos supuestos. Por ejemplo, la siguiente figura muestra un gráfico de secuencia de funcionamiento para los diarios vuelve al índice bursátil Standard and Poors.
Debido a que este es un gráfico de series de tiempo, se está utilizando para determinar si los vuelve a la SP 500 son independientes entre sí, si están todos tomados de la misma distribución de probabilidad, y si los parámetros (media y varianza) se mantienen constantes en el tiempo .
La secuencia de ejecución parcela está diseñado para responder a estas preguntas:
¿Hay algún cambio en la media de los datos?
¿Hay algún cambio en la varianza de los datos?
Además, se utiliza la secuencia de ejecución complot para identificar valores atípicos en los datos.
La trama de los regresa a la SP 500 muestra que la media y la varianza de los datos se mantienen estables en el tiempo, y que no parecen ser cualquier valor atípico.
Lag trama
LA lag trama determina si los elementos de un conjunto de datos son aleatorio (independientes entre sí). En otras palabras, la trama muestra si hay un patrón en los datos. Los patrones en los datos son inconsistentes con la aleatoriedad.
Un valor rezagado es el que ha ocurrido en el pasado. Un desfase de 1 hace referencia a una observación que ha tenido lugar un período en el pasado. Un desfase de 2 se refiere a una observación que ha tenido lugar dos períodos en el pasado, y así sucesivamente.
Una parcela lag muestra los valores de una variable en el eje vertical, y los valores de la misma variable se retrasó en el eje horizontal. Por ejemplo, esta cifra muestra un gráfico de retraso para los diarios vuelve al índice bursátil Standard and Poors.
Los puntos en esta parcela se dispersan al azar sin un patrón particular. Esto es consistente con la suposición de aleatoriedad en los datos.
Histograma
Puede utilizar un histograma para identificar la distribución seguido de un conjunto de datos. Un histograma puede mostrar varios detalles clave acerca de un conjunto de datos, incluyendo las siguientes:
El centro de los datos
La propagación (variabilidad) de los datos
La asimetría de los datos (si los hay)
La presencia de valores atípicos
Por ejemplo, esta cifra muestra un histograma para los diarios vuelve al índice bursátil Standard and Poors.
El gráfico muestra que devuelve el Standard and Poor tienen una media de aproximadamente el 0 - las alturas de las barras son mayores cerca de 0. Los rendimientos parecen exhibir asimetría negativa (es decir, los retornos negativos extremos son más comunes que los retornos positivos extremos) y tienen una mayor magnitud. No parece haber ningún valores atípicos en los datos.
Normal gráfica de probabilidad
Usar una gráfica de probabilidad normal para comparar un conjunto de datos a la distribución normal. El eje vertical de este gráfico muestra los cuantiles del conjunto de datos, y el eje horizontal muestra los cuantiles de la distribución normal. Si un conjunto de datos tiene una distribución normal, entonces la gráfica debe parecer una línea recta con una pendiente de 1.
Cuantiles se utilizan para dividir un conjunto de datos en grupos de igual tamaño. Un tipo ampliamente utilizado de cuantil es la cuartil, que (como se discutió anteriormente) divide un conjunto de datos en cuatro grupos iguales, cada uno compuesto de 25 por ciento de los datos. Otra opción popular es la percentil, que divide un conjunto de datos en cien grupos iguales, cada uno compuesto de 1 por ciento de los datos.
La siguiente figura muestra un gráfico de probabilidad normal para los diarios vuelve al índice bursátil Standard and Poors.
El gráfico muestra que los regresa a la SP 500 están cerca de ser normal, con desviaciones en las colas de la distribución.