Pruebas de hipótesis para los valores extremos de datos
Varias pruebas estadísticas formales que están diseñados para detectar valores atípicos de datos. Tres de ellos toman la forma de pruebas de hipótesis. Una prueba de hipótesis es un procedimiento para determinar si una proposición puede ser rechazada en base a datos de la muestra. Pruebas de hipótesis siempre implican la comparación de una prueba estadística de los datos a una distribución apropiada para determinar si una hipótesis dada es apoyada por los datos.
Prueba de Grubbs '
Con una prueba de Grubbs ', se asume que el conjunto de datos que se está probando para los valores atípicos se distribuye normalmente. Las hipótesis nula y alternativa son los siguientes:
H0: No hay valores atípicos.H1: Hay por lo menos un valor atípico.
La estadística de prueba es el siguiente:
dónde
G = La estadística de prueba para la prueba de la Grubbs 'Yi = Un solo elemento en el conjunto de datos está probandoY = La media de la muestras = La desviación estándar de la muestra
La estadística de prueba produce el elemento de ejemplo que está más lejos de la media de la muestra (positiva o negativa) expresado como desviaciones estándar. Por ejemplo, si la media de la muestra es 5, el elemento más grande de la muestra es 11, y la desviación estándar de la muestra es 2, entonces la estadística de prueba sería (11 - 5) / 2 = 6/2 = 3 desviaciones estándar de distancia de la media .
El valor crítico es el siguiente:
Dónde
n es el tamaño de la muestra extraída de la población.t es un valor extraído de de la t de Student-distribución- que tiene un área de la cola mismo derecho a un nivel de significancia y n - 2 grados de libertad (df).
La prueba puede llevarse a cabo para determinar si existe un valor atípico, si el valor máximo es un valor atípico, si el valor mínimo es un valor atípico, y así sucesivamente.
Por ejemplo, la siguiente muestra los resultados de la aplicación de la prueba de Grubbs a la SP 500 retornos 2009-2.013. Se lleva a cabo la prueba de encontrar un solo caso atípico. Resultados de la prueba de Grubbs 'para un valor atípico:
Datos: SPReturnsG = 3,8509, U = 0,9404, p-valor = 0,01177Hipótesis alternativa: Valor más bajo -0.0253283545257448 es un caso atípico
Con un nivel de significación igual a 0,05, y un p-valor de 0.01177, el p-valor está por debajo del nivel de significación. Por lo tanto, la hipótesis nula de no hay valores atípicos se rechaza. Por otra parte, la prueba indica que el valor mínimo en el conjunto de datos es un valor atípico.
Prueba de Chi-cuadrado
Usted puede probar para valores atípicos con la distribución de chi-cuadrado. Las hipótesis nula y alternativa son los siguientes:
H0: No hay valores atípicos.H1: Hay por lo menos un valor atípico.
La estadística de prueba se basa en las diferencias entre los miembros de un conjunto de datos reales y los miembros correspondientes de una distribución de probabilidad asumido, como la normal.
Por ejemplo, la siguiente muestra los resultados de la aplicación de la prueba de chi cuadrado para el SP 500 retornos desde 2009 hasta 2.013:
Prueba de Chi-cuadrado para atípicoDatos: SPReturnsX-cuadrado = 14.8292, p-valor = 0,01177Hipótesis alternativa: Valor más bajo -0.0253283545257448 es un caso atípico
Con un nivel de significación igual a 0,05, y un p-valor de 0.01177, el p-valor está por debajo del nivel de significación. Por lo tanto, la hipótesis nula de no hay valores atípicos se rechaza. Por otra parte, la prueba indica que el valor mínimo en el conjunto de datos es un valor atípico.
Prueba Q de Dixon
Con la prueba Q de Dixon, usted asume el conjunto de datos que se está probando para los valores atípicos se distribuye normalmente. Las hipótesis nula y alternativa son los siguientes:
H0: No hay valores atípicos.H1: Hay por lo menos un valor atípico.
La estadística de prueba es el siguiente:
Hueco se refiere al valor absoluto de la diferencia entre un valor atípico y el siguiente valor más cercano en el conjunto de datos. Rango se refiere a la diferencia entre el valor más grande en el conjunto de datos y el valor más pequeño en el conjunto de datos.
Uno de los inconvenientes de la prueba Q de Dixon es que se puede aplicar sólo a una muestra que contiene entre 3 y 30 observaciones.
A continuación se muestran los resultados de la aplicación de la prueba Q de Dixon al SP 500 devoluciones durante los primeros 30 días de negociación de 2009:
Prueba de Dixon para valores atípicosDatos: SPRQ = 0,4359, p-valor = 0,03185Hipótesis alternativa: Valor más bajo -0.0116057775514049 es un caso atípico
Con un nivel de significación igual a 0,05, y un p-valor de 0.03185, el p-valor está por debajo del nivel de significación. Por lo tanto, la hipótesis nula de no hay valores atípicos se rechaza. Por otra parte, la prueba indica que el valor mínimo en el conjunto de datos es un valor atípico.