Los estadísticos robustos y grandes datos
Una estadística se dice que es robusto si no está fuertemente influenciada por la presencia de valores atípicos. Por ejemplo, la media no es robusta, ya que puede estar fuertemente afectada por la presencia de valores atípicos. Por otro lado, la mediana es robusto - no se ve afectada por los valores extremos.
Por ejemplo, supongamos que los siguientes datos representa una muestra de los ingresos familiares en un pequeño pueblo (medido en miles de dólares al año):
32, 47, 20, 25, 56
A calcular la media de la muestra como la suma de las cinco observaciones dividido por cinco:
La media de la muestra es de $ 36,000 por año. La mayoría de los hogares de la muestra están muy cerca de este valor.
Supongamos que en vez de que la muestra se compone de los siguientes valores:
32, 47, 20, 25, 376
Debido a que el ingreso familiar de $ 376.000 es sustancialmente mayor que el ingreso familiar más próximo de $ 32.000, el ingreso familiar de $ 376.000 puede ser considerado como un caso atípico.
Con el valor atípico, la muestra quiere decir que hoy es la siguiente:
Esta medida no es representativa de la mayoría de los hogares de la ciudad. Por lo tanto, la utilidad de la media se ve comprometida en la presencia de valores atípicos.
Usted calcular la mediana de la muestra por la clasificación de los datos de menor a mayor y luego encontrar el valor que divide la muestra en medio. En otras palabras, la mitad de las observaciones están por debajo de la mediana, y la otra mitad por encima.
La primera muestra:
32, 47, 20, 25, 56
La muestra ordenados:
20, 25, 32, 47, 56
En este caso, la mediana es 32 porque la mitad de las observaciones restantes están por debajo de 32 y la otra mitad por encima de ella.
La segunda muestra:
32, 47, 20, 25, 376
La muestra ordenados:
20, 25, 32, 47, 376
A pesar de la presencia del atípico de 376, la mediana es todavía 32. No se ha visto afectada por el valor atípico. Esto demuestra que a diferencia de la media, la mediana es robusto con respecto a los valores atípicos.
Otros ejemplos de estadísticas sólidas incluyen la mediana, desviación absoluta, y el rango intercuartil.