Suavizado de datos en Excel

Estadísticos normalmente tienen que mirar a las grandes masas de datos y encontrar difíciles de ver patrones. A veces una tendencia general sugiere una herramienta analítica particular. Y ocasiones esa herramienta, aunque estadísticamente poderoso no le ayuda llegue al estadístico de explicación.

La siguiente figura es un diagrama de jonrones en la Liga Americana desde 1901 hasta 2008.

imagen0.jpg

La tendencia general obvia es que a medida que pasan los años, más jonrones son golpeados. El montaje de una línea de regresión confirma esta idea. La ecuacion

Home Runs = 24.325 * Año - 465.395

es un ajuste excelente para los datos. La ecuación da un valor de R² de 0,91, lo que indica que un modelo lineal muy bien describe la relación entre jonrones y año.

Y así . . . qué?

Sólo el ajuste de una recta de regresión pasa por alto cosas importantes dentro del béisbol - las cosas grandes y pequeñas que componen una temporada de béisbol, una época, una historia. Y el béisbol tiene muchas de esas cosas. El objetivo es conseguir que se revelan a sí mismos.

El otro extremo de la línea de regresión es conectar los puntos. Eso acaba de dar un montón de zigzag que probablemente no va a iluminar un siglo de historia.

El problema es cómo resumir sin eliminar demasiado: Deshazte de los zigzags, pero mantener los picos y valles importantes. ¿Cómo se hace esto sin saber lo que es importante por adelantado?

Análisis exploratorio de datos (EDA) ayuda a señalar el camino. Una técnica EDA se llama suavizado de tres mediana. Para cada punto de datos en una serie, sustituya ese punto de datos con la mediana de tres números: el propio punto de datos, los datos apuntan que la precede, y el punto de datos que siguen.

¿Por qué la mediana? A diferencia de la media, la mediana no es sensible a los valores extremos que se producen de vez en cuando - como un zig zag o una. El efecto es filtrar el ruido y dejar subidas y bajadas significativas.

¿Por qué tres números? Como casi todo en EDA, eso no férreo. Para algunos conjuntos de datos, es posible que desee la mediana para cubrir más números. Todo depende de las intuiciones, experiencias e ideas del analista.

Otra técnica, Hanning, es una media ponderada en ejecución. Se sustituye un punto de datos con la suma de una cuarta parte el punto de datos anterior más la mitad del punto de datos más un cuarto el siguiente punto de datos. Todavía otra técnica es la skip significa.

En EDA, usted no sólo tiene que utilizar una técnica en un conjunto de datos. A menudo, usted comienza con una suave media, repítalo varias veces, y luego tratar de uno o dos más.

Para los datos en el diagrama de dispersión, se aplican las tres mediana suave, repetirla (es decir, se aplican a los datos recién suavizadas), Han los datos suavizados, y luego aplicar el salto significa. Una vez más, ninguna técnica (o el orden de las técnicas) es correcto o incorrecto. Aplica lo que piensas ilumina características significativas de los datos.

A continuación se presenta parte de una hoja de trabajo para todo esto. La columna A muestra el año, y la Columna B muestra el número de jonrones golpeado ese año en la Liga Americana. Las columnas restantes muestran suaviza sucesivas de los datos.

La columna C se aplica la mediana de tres sin problemas a la columna B y la columna D se aplica el tres mediana sin problemas a la columna C. Un rápido vistazo a los números muestran que la repetición no hace mucha diferencia. Columna E se aplica hanning a la columna D y la columna F se aplica el salto significa Columna E.

En Columnas C a F, el número real de jonrones se utiliza para el primer valor (para el año 1901) y para el valor final (para el año 2008).

image1.jpg

Usted puede ver fácilmente el efecto de cada técnica de alisado consecutiva en la línea suavizada. La clave está en la derecha, haga clic en el área de trazado y elija Seleccionar datos en el menú emergente. Haga clic en el nombre de la serie de datos que representa la línea suavizada, editar el rango de celdas de la serie para reflejar la columna que sostiene la técnica de suavizado en particular, y haga clic en Aceptar para cerrar los cuadros de diálogo de edición.

Y ahora la historia comienza a revelarse. En lugar de una línea de regresión que simplemente le dice que jonrones aumentan a medida que pasan los años, los altos y bajos estimulan el pensamiento de por qué están allí. He aquí una versión muy abreviada de la historia del béisbol en consonancia con los giros y vueltas de la línea suavizada.

El segmento plano de baja a partir de 1901 a través de 1920 significa el " era de la bola muerta, " un momento en que la composición de una pelota de béisbol inhibido bateó bolas de ir lo suficientemente lejos para convertirse en jonrones.

Explorar y visualizar los datos estimula el pensamiento sobre lo que está produciendo los patrones de los destapa de exploración. La especulación conduce a la hipótesis comprobables, que conducen a análisis.




» » » » Suavizado de datos en Excel