Encuentra los valores atípicos en los datos de infografía
Al analizar los datos para sus infografías, usted debe ser consciente de que algunos puntos de datos - conocido como valores atípicos - sentar hasta ahora fuera de la norma en cuanto a llamar la atención sobre sí mismos. En los casos más graves, incluso pueden sesgar los datos y crear una imagen engañosa de la asignatura. Es necesario reconocer cuando se tiene un valor atípico y luego decidir qué hacer al respecto.
Esta tabla contiene un ejemplo sencillo para demostrar esta idea. Los dos conjuntos de datos representan las calificaciones del estudiante, durante ocho semanas, en dos de exams- semanal los números son el porcentaje de respuestas correctas en el examen. El conjunto de datos a la izquierda (el primer examen) no contiene un valor atípico, pero el conjunto de datos de la derecha (el segundo examen) lo hace. El único valor atípico se muestra en negrita.
Niveles de examen semanalesSemana | Grados (sin valor atípico) | Grados (un valor atípico) |
---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Promedio | 87% | 83% |
El promedio en la columna central presenta un cuadro bastante exacto de los logros del estudiante en pruebas regulares. El único valor atípico (negrita) (50%) en el conjunto de datos a la derecha lanza una llave en las obras, sin embargo, dejar caer el promedio del estudiante en cuatro puntos porcentuales y sesgar los datos.
¿Qué hace un periodista de datos en un caso así? Aquí están algunas opciones:
Tire a la basura el valor atípico. Si estás utilizando sólo el medio en el gráfico y está preocupado de que es engañosa, eliminar el valor atípico como una aberración y luego calcular la media y sin esa semana, como se muestra en la figura.
En este ejemplo, tirar el valor atípico significaría calificación de la prueba media de este estudiante salta hasta el 87%, lo que (como la primera columna muestra) es una mejor representación de los logros durante el plazo.
Si usted va con esta opción, asegúrese de agregar una nota al pie explicando todo: en este caso, la eliminación de un punto de datos. Siempre sea lo más transparente posible.
Mostrar los datos tal cual. Ya sea que esté usando sólo la media en su gráfica o trazado de todos los datos en un gráfico, siempre se puede presentar los datos tal y como se trataba de usted, como se muestra en la siguiente figura.
En este caso, usted debe agregar una nota diciendo en voz alta el valor extremo para que el lector es plenamente consciente de ello.
Construir un " línea de mejor ajuste ". Esta opción sólo se aplica si usted va a crear un gráfico que muestra todos los datos. Una línea de mejor ajuste - también llamado regresión lineal - es un medio visual de sus datos: literalmente, la línea que representa los puntos de datos dispersos mejor.
Sobre el autor
Pruebas de hipótesis para los valores extremos de datos Varias pruebas estadísticas formales que están diseñados para detectar valores atípicos de datos. Tres de ellos toman la forma de pruebas de hipótesis. Una prueba de hipótesis es un procedimiento para determinar si una proposición puede ser…
Los estadísticos robustos y grandes datos Una estadística se dice que es robusto si no está fuertemente influenciada por la presencia de valores atípicos. Por ejemplo, la media no es robusta, ya que puede estar fuertemente afectada por la presencia de valores atípicos. Por otro lado, la…
Diagramas de tallo y hojas: técnica gráfica de datos estadísticos LA tallo y hoja trama es un dispositivo gráfico en el que la distribución de un conjunto de datos está organizada por el valor numérico de las observaciones en el conjunto de datos. El diagrama consiste en una "madre", que muestra las diferentes…
Tendencia central: allá de lo básico La media y la mediana son las dos medidas más fiables y comúnmente reportados del centro, y se utilizan en una amplia variedad de situaciones. Sin embargo, si usted está estudiando seriamente estadísticas, usted debe estar familiarizado con las…
Los conjuntos de datos y problemas de estadística descriptiva Sea consciente de las unidades de cualquier estadística descriptiva a calcular (por ejemplo, dólares, pies o millas por galón). Algunas estadísticas descriptivas están en las mismas unidades que los datos, y algunos no lo son. Resuelve los…
¿Cómo encontrar el rango intercuartil para una muestra estadística Para obtener una medida de la variación sobre la base del resumen de cinco números de una muestra estadística, usted puede encontrar lo que se llama la rango intercuartil, o IQR.El propósito del resumen de cinco números es dar la estadística…
¿Cómo encontrar el valor de la mediana de un conjunto de datos estadísticos La mediana es una estadística que se utiliza comúnmente para medir el centro de un conjunto de datos. Sin embargo, todavía es un héroe anónimo de las estadísticas en el sentido de que no se utiliza con tanta frecuencia como debe ser, aunque la…
Cómo reunir a un resumen de cinco números de una muestra estadística Si sus datos de crear un histograma que no está en forma de campana, se puede utilizar un conjunto de estadísticas que se basa en percentiles para describir el panorama general de los datos. Llamado el resumen de cinco números, este método…
Cómo localizar un valor en un conjunto de datos utilizando cuartiles Cuartiles dividir un conjunto de datos en cuatro partes iguales, cada uno compuesto de 25 por ciento de los valores ordenados en el conjunto de datos. Cuartiles están relacionados con percentiles, así:En primer cuartil (Q1) = Percentil 25En…
¿Cómo hacer un diagrama de caja de un resumen de cinco números LA diagrama de caja es un gráfico unidimensional de datos numéricos basados en el resumen de cinco números. Este resumen incluye las siguientes estadísticas: el valor mínimo, el percentil 25 (conocido como Q1), La mediana, el percentil 75…
Información general de las técnicas gráficas Existen diferentes tipos de gráficos pueden ser útiles para el análisis de datos. Estos incluyen diagramas de tallo y hojas, gráficos de dispersión, diagramas de caja, histogramas, cuantil-cuantil (QQ) parcelas y parcelas de autocorrelación.LA…
Estadísticas términos para saber cuando se utiliza Excel 2007 las herramientas de análisis de datos Con las herramientas de análisis de datos disponibles en Excel 2007, puede crear hojas de cálculo que muestran los detalles de cualquier estadística se puede crear una fórmula para encontrar - y usted puede encontrar cualquier número. Es bueno…