Cómo histogramas pueden tergiversar los datos estadísticos
No hay reglas duras y rápidas sobre cómo crear un histograma basado en un conjunto de datos estadísticos de la persona que hace el gráfico tiene que elegir las agrupaciones en la X-eje, así como la escala y puntos inicial y final de la y-eje. El hecho de que hay un elemento de elección, sin embargo, no significa que cada elección es su caso-, de hecho, un histograma se puede hacer para ser engañosa en muchos sentidos.
Aunque el número de grupos que utilice para un histograma es a la discreción de la persona que hace el gráfico, no hay tal cosa como ir al agua, ya sea por tener demasiado pocos bares, con todo agrupados, o por tener demasiados bares, donde se magnifica cada pequeña diferencia.
Para decidir el número de barras de un histograma debe tener, usted debe tomar un buen vistazo a las agrupaciones que se utilizan para formar las barras de la X-eje y ver si tienen sentido. Por ejemplo, no tiene sentido hablar de los resultados del examen en grupos de 2 puntos- que es demasiado detalle - demasiados bares. Por otro lado, no tiene sentido para las edades del grupo de la gente por intervalos de 20 años- que no es lo suficientemente descriptivo.
Las cifras encima y por debajo ilustran este punto.
Cada histograma resume n = 222 observaciones de la cantidad de tiempo entre las erupciones del géiser Old Faithful en Yellowstone Park. Histograma # 1 utiliza seis bares que agrupan los datos por intervalos de 10 minutos. Este histograma muestra un patrón de izquierda sesgada general, pero con 222 observaciones que están metiendo una gran cantidad de datos en sólo seis grupos- por ejemplo, la barra de 75-85 minutos tiene más de 90 piezas de datos en el mismo. (Eso es más del 40% del conjunto de datos!) Usted puede descomponer aún más que eso.
Histograma # 2 muestra el mismo conjunto de datos, donde el tiempo entre erupciones se divide en grupos de 3 minutos cada uno, lo que resulta en 19 bares. Observe el patrón distinto en los datos que se presenta con este histograma que no fue descubierto en histograma # 1. Usted ve dos picos distintos en los datos: un pico alrededor de la marca de 50 minutos, y una alrededor de la marca de 75 minutos. Un conjunto con dos picos de datos se denomina bimodal- histograma # 2 muestra un claro ejemplo.
En cuanto a histograma # 2, se puede concluir que el géiser tiene dos categorías de erupciones: un grupo que tiene un tiempo de espera más corto, y otro grupo que tiene un tiempo de espera más largo. Dentro de cada grupo se ven los datos son bastante cerca de donde se encuentra el pico. En cuanto a histograma # 1, no se podía decir eso.
los y-eje de un histograma muestra el número de observaciones están en cada grupo, utilizando los recuentos o porcentajes. Un histograma puede ser engañosa si se tiene una escala engañosa y / o de partida apropiado y puntos para concluir en la y-eje.
Ver la escala en el y-eje de un histograma. Si se va en incrementos grandes y disponen de un punto final que es muy superior a la necesaria, se ve una gran cantidad de espacio en blanco por encima del histograma. Las alturas de las barras se aprietan hacia abajo, haciendo que sus diferencias se ven más uniforme de lo que deberían. Si la escala va en pequeños incrementos y termina en el menor valor posible, las barras se estiran verticalmente, exagerando las diferencias en sus alturas y sugiriendo una diferencia más grande que existe realmente.
El ejemplo siguiente utiliza una escala diferente a la vertical (y) Eje de histograma # 2.
Histograma # 3 toma los datos Old Faithful (tiempo entre las erupciones) y utiliza incrementos verticales de 20 minutos, de 0 a 100. Compare esto con histograma # 2, que utiliza incrementos verticales de 5 minutos, de 0 a 35. Histograma # 3 tiene una gran cantidad de espacio en blanco y da la apariencia de que los tiempos se distribuyen de manera más uniforme entre los grupos de lo que realmente son. También hace que el conjunto de datos se vea más pequeña, si no presta atención a lo que está en el y-eje. De los dos gráficos, histograma # 2 es más apropiado.