¿Cuánto propagación es allí en los datos?

Cuando se trabaja con estadísticas de datos grandes, se identifica la difusión de un conjunto de datos del centro con varias diferentes medidas de resumen: varianza, desviación estándar, cuartiles, rango intercuartil (IQR).

La varianza es la desviación al cuadrado promedio entre los elementos del conjunto de datos y la media. Para una muestra de los datos, la varianza se calcula así:

imagen0.jpg

dónde

  • Xyo es el valor de un solo elemento en la muestra.

    image1.jpg
  • es la media de la muestra.

  • n es el tamaño de la muestra.

La desviación estándar es la raíz cuadrada de la varianza. Para la mayoría de aplicaciones, la desviación estándar es más conveniente de usar que la varianza como medida de propagación. Esto se debe a la varianza se mide en cuadrado unidades, mientras que la desviación estándar se mide en las mismas unidades que los datos. Por ejemplo, la varianza de un conjunto de datos que consta de precios se mediría en dólares cuadrado, y la desviación estándar sería medido en dólares. La desviación estándar es la medida más ampliamente utilizada de la propagación en un conjunto de datos.

Los cuartiles dividen un conjunto de datos en cuatro partes iguales. El primer cuartil (Q1) Divide los datos en el 25 por ciento más bajo de las observaciones y el 75 por ciento más alto (25 por ciento de las observaciones son menos que Q1, y el 75 por ciento son mas grande que Q1). El segundo cuartil (Q2) Divide los datos en el 50 por ciento más bajo de las observaciones y la más alta 50 por ciento. El tercer cuartil (Q3) Divide los datos en el 75 por ciento más bajo de las observaciones y la más alta 25 por ciento. El rango intercuartil (IQR) es igual a la diferencia entre el tercer y primer cuartil:

image2.jpg

El IQR representa el 50 por ciento de los datos.

Los cuartiles de un conjunto de datos se ilustran mejor con un diagrama de caja. La siguiente figura muestra un diagrama de caja de los diarios vuelve a ExxonMobil en 2013.

Caja parcela de retornos diarios a ExxonMobil de valores en 2013.
Caja parcela de retornos diarios a ExxonMobil de valores en 2013.

El diagrama de caja muestra varias estadísticas clave para la rentabilidad de ExxonMobil:

image4.jpg

La rentabilidad mínima se muestra en un gráfico como un solo punto en la parte inferior de la parcela (un cuadro de espectáculos de la trama valores atípicos como puntos individuales). Q1 se muestra como la parte inferior de la caja, Q2 es la línea de negro sólido en el medio de la caja, y Q3 es la parte superior de la caja. El máximo rendimiento se muestra como un solo punto en la parte superior de la parcela.




» » » » ¿Cuánto propagación es allí en los datos?