Pruebas de hipótesis para los valores extremos de datos

Varias pruebas estadísticas formales que están diseñados para detectar valores atípicos de datos. Tres de ellos toman la forma de pruebas de hipótesis. Una prueba de hipótesis es un procedimiento para determinar si una proposición puede ser rechazada en base a datos de la muestra. Pruebas de hipótesis siempre implican la comparación de una prueba estadística de los datos a una distribución apropiada para determinar si una hipótesis dada es apoyada por los datos.

Conteúdo

Prueba de grubbs '
Prueba de chi-cuadrado
Prueba q de dixon

Prueba de Grubbs '

Con una prueba de Grubbs ', se asume que el conjunto de datos que se está probando para los valores atípicos se distribuye normalmente. Las hipótesis nula y alternativa son los siguientes:

H₀: No hay valores atípicos.H₁: Hay por lo menos un valor atípico.

La estadística de prueba es el siguiente:

dónde

G = La estadística de prueba para la prueba de la Grubbs 'Yi = Un solo elemento en el conjunto de datos está probandoY = La media de la muestras = La desviación estándar de la muestra

La estadística de prueba produce el elemento de ejemplo que está más lejos de la media de la muestra (positiva o negativa) expresado como desviaciones estándar. Por ejemplo, si la media de la muestra es 5, el elemento más grande de la muestra es 11, y la desviación estándar de la muestra es 2, entonces la estadística de prueba sería (11 - 5) / 2 = 6/2 = 3 desviaciones estándar de distancia de la media .

El valor crítico es el siguiente:

Dónde

n es el tamaño de la muestra extraída de la población.t es un valor extraído de de la t de Student-distribución- que tiene un área de la cola mismo derecho a un nivel de significancia y n - 2 grados de libertad (df).

La prueba puede llevarse a cabo para determinar si existe un valor atípico, si el valor máximo es un valor atípico, si el valor mínimo es un valor atípico, y así sucesivamente.

Por ejemplo, la siguiente muestra los resultados de la aplicación de la prueba de Grubbs a la SP 500 retornos 2009-2.013. Se lleva a cabo la prueba de encontrar un solo caso atípico. Resultados de la prueba de Grubbs 'para un valor atípico:

Datos: SPReturnsG = 3,8509, U = 0,9404, p-valor = 0,01177Hipótesis alternativa: Valor más bajo -0.0253283545257448 es un caso atípico

Con un nivel de significación igual a 0,05, y un p-valor de 0.01177, el p-valor está por debajo del nivel de significación. Por lo tanto, la hipótesis nula de no hay valores atípicos se rechaza. Por otra parte, la prueba indica que el valor mínimo en el conjunto de datos es un valor atípico.

Prueba de Chi-cuadrado

Usted puede probar para valores atípicos con la distribución de chi-cuadrado. Las hipótesis nula y alternativa son los siguientes:

H₀: No hay valores atípicos.H₁: Hay por lo menos un valor atípico.

La estadística de prueba se basa en las diferencias entre los miembros de un conjunto de datos reales y los miembros correspondientes de una distribución de probabilidad asumido, como la normal.

Por ejemplo, la siguiente muestra los resultados de la aplicación de la prueba de chi cuadrado para el SP 500 retornos desde 2009 hasta 2.013:

Prueba de Chi-cuadrado para atípicoDatos: SPReturnsX-cuadrado = 14.8292, p-valor = 0,01177Hipótesis alternativa: Valor más bajo -0.0253283545257448 es un caso atípico

Prueba Q de Dixon

Con la prueba Q de Dixon, usted asume el conjunto de datos que se está probando para los valores atípicos se distribuye normalmente. Las hipótesis nula y alternativa son los siguientes:

H₀: No hay valores atípicos.H₁: Hay por lo menos un valor atípico.

La estadística de prueba es el siguiente:

Hueco se refiere al valor absoluto de la diferencia entre un valor atípico y el siguiente valor más cercano en el conjunto de datos. Rango se refiere a la diferencia entre el valor más grande en el conjunto de datos y el valor más pequeño en el conjunto de datos.

Uno de los inconvenientes de la prueba Q de Dixon es que se puede aplicar sólo a una muestra que contiene entre 3 y 30 observaciones.

A continuación se muestran los resultados de la aplicación de la prueba Q de Dixon al SP 500 devoluciones durante los primeros 30 días de negociación de 2009:

Prueba de Dixon para valores atípicosDatos: SPRQ = 0,4359, p-valor = 0,03185Hipótesis alternativa: Valor más bajo -0.0116057775514049 es un caso atípico

Con un nivel de significación igual a 0,05, y un p-valor de 0.03185, el p-valor está por debajo del nivel de significación. Por lo tanto, la hipótesis nula de no hay valores atípicos se rechaza. Por otra parte, la prueba indica que el valor mínimo en el conjunto de datos es un valor atípico.

Sobre el autor

Calcular estadísticas de prueba para dos poblaciones independientes con varianzas desiguales y al menos una pequeña muestra

Si las varianzas de dos poblaciones independientes aren't igual (o usted no tiene ninguna razón para creer que son iguales) y al menos una muestra es pequeño (menos de 30), la prueba estadística apropiada esEn este caso, se obtiene los valores…

Los conjuntos de datos y problemas de estadística descriptiva

Sea consciente de las unidades de cualquier estadística descriptiva a calcular (por ejemplo, dólares, pies o millas por galón). Algunas estadísticas descriptivas están en las mismas unidades que los datos, y algunos no lo son. Resuelve los…

Sacar conclusiones sobre una población con intervalos de confianza y pruebas de hipótesis

Al sacar conclusiones sobre una población a partir de muestras elegidas al azar (un proceso llamado inferencia estadística), Puede utilizar dos métodos: intervalos de confianza y pruebas de hipótesis.Intervalos de confianzaLA intervalo de…

La evaluación de reclamaciones con pruebas de hipótesis

Utiliza las pruebas de hipótesis para desafiar si alguna afirmación sobre una población es cierto (por ejemplo, la afirmación de que el 90 por ciento de los estadounidenses posee un teléfono celular). Para poner a prueba una hipótesis…

Explora prueba de hipótesis en las estadísticas comerciales

En estadística, hprueba ypothesis se refiere al proceso de elegir entre hipótesis opuestas sobre una distribución de probabilidad, basándose en los datos observados a partir de la distribución. Es un tema central y una parte fundamental del…

Encuentra las pruebas estadísticas apropiadas para dos poblaciones independientes de igual tamaño y varianza

Puede probar hipótesis acerca de dos medias poblacionales donde las poblaciones son independientes entre sí, pero tienen el mismo tamaño y la varianza. Con igual varianzas poblacionales, la estadística de prueba requiere el cálculo de una…

Encuentra los valores críticos de dos colas cuando se prueba una hipótesis para una pequeña muestra

Cuando se utiliza una pequeña muestra para probar una hipótesis acerca de una media poblacional, se toma el valor crítico resultante o los valores de la distribución t de Student. Para una prueba de dos colas, el valor crítico esy n representa…

Manejo de pruebas de hipótesis estadísticas

Utiliza las pruebas de hipótesis para desafiar si alguna afirmación sobre una población es cierto (por ejemplo, la afirmación de que el 40 por ciento de los estadounidenses posee un teléfono celular). Para poner a prueba una hipótesis…

Cómo determinar un valor de p al probar una hipótesis nula

Al probar una hipótesis sobre una población, puede utilizar el estadístico de prueba para decidir si se debe rechazar la hipótesis nula, H0. A tomar esta decisión mediante la presentación de un número, llamado p-valor.LA p-valor es una…

¿Cómo encontrar el punto de corte para rechazar una hipótesis nula

En estadística, si quieres sacar conclusiones sobre una hipótesis nula H0 (rechazar o no rechazar) basado en un p-valor, es necesario establecer un punto de corte predeterminado en el que sólo los p-valores menores que o igual a la de corte…

Cómo utilizar el t-test para manejar pequeñas muestras y las desviaciones estándar desconocidos

Cuando se utiliza una prueba estadística para una media poblacional, hay dos casos en los que debe utilizar el t-distribución en lugar de la Z-distribución. El primer caso es donde el tamaño de la muestra es pequeño (por debajo de 30 o así), y…

En cuanto a los valores críticos del intervalo de confianza

Los valores críticos (z*-valores) son un componente importante de los intervalos de confianza (la técnica estadística para estimar parámetros poblacionales). los z* -valor, que aparece en el margen de la fórmula de error, mide el número de…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Pruebas de hipótesis para los valores extremos de datos