Resumir datos agrupados con bares, cajas y bigotes
A veces quieres mostrar cómo una variable varía de un grupo de sujetos a otro. Por ejemplo, los niveles en sangre de algunas enzimas varían entre las diferentes razas. Dos tipos de gráficos se utilizan comúnmente para este propósito: gráficos de barras y diagramas de caja y bigotes.
Gráfica de barras
Una forma sencilla de visualizar y comparar las medias de varios grupos de datos es con un gráfico de barras, como la que se muestra, donde la altura de barras para cada carrera es igual a la media (o mediana o media geométrica) valor del nivel de enzimas para que carrera.
Y el gráfico de barras se vuelve aún más informativo si usted indica la propagación de los valores para cada carrera por líneas que representan la colocación de una desviación estándar por encima y por debajo de las copas de los bares. Estas líneas siempre se denominan barras de error (una desafortunada elección de palabras que pueden causar confusión cuando se agregan barras de error a un gráfico de barras).
Pero incluso con barras de error, un gráfico de barras todavía no da una muy buena imagen de la distribución niveles de enzima dentro de cada grupo. Están sesgados los valores? ¿Hay valores atípicos? La media y la SD pueden no ser muy informativo si los valores se distribuyen log-normal o de otra manera inusual.
Idealmente, usted quiere mostrar un histograma para cada grupo de sujetos, pero esto puede tomar hasta demasiado espacio. ¿Que debes hacer? Continúa leyendo para averiguarlo.
Diagramas de caja y bigotes
Afortunadamente, otro tipo de gráfico que llama caja y bigotes parcela (o BW, o solo Box gráfico) Muestra - en muy poco espacio - una gran cantidad de información acerca de la distribución de los números en uno o más grupos de sujetos. Un argumento sencillo BW de los mismos datos de enzimas ilustradas con un gráfico de barras anterior se muestra más abajo, a la izquierda.
La cifra BW para cada grupo por lo general tiene las siguientes partes:
Una caja que abarca el rango intercuartil (IQR), que se extiende desde el primer cuartil (percentil 25a) para el tercer cuartil (percentil 75a) de los datos, y por lo tanto que abarca el centro 50 por ciento de los datos
Una línea horizontal gruesa, dibujado en la mediana (50mo percentil), que a menudo pone en o cerca del centro de la caja
Las líneas discontinuas (bigotes) que se extienden hasta el punto más lejano de datos que no es más de 1,5 veces la RIC lejos de la caja
Puntos individuales que están fuera de los bigotes, consideran valores atípicos
Parcelas BW proporcionan un resumen útil de la distribución. Un medio que no está situado cerca de la mitad de la caja indica una distribución asimétrica.
Algunos software dibuja las diferentes partes de una parcela de BW de acuerdo a diferentes reglas (la línea horizontal puede estar en la media en lugar de la-mediana del cuadro puede representar la media 177- # 1 desviación-estándar los bigotes se puede extender a la más lejana outliers- y así sucesivamente). Siempre consulte la documentación del software y proporcionar la descripción de las partes siempre que se presente una parcela BW.
Algunos programas de software ofrece varias mejoras en la trama básica BW. La figura a la derecha de la trama sencilla cuadro ilustra dos de tales adornos usted puede considerar el uso de:
Anchura variable: Las anchuras de las cajas se pueden escalar para indicar el tamaño relativo de cada grupo. Usted puede ver que hay un número considerablemente menor asiáticos y los "otros" que los blancos o los negros.
Las muescas: La caja puede tener muescas que indican la incertidumbre en la estimación de la mediana. Si dos grupos tienen muescas que no se superponen, que probablemente tienen significativamente diferentes medianeras. Los blancos y los "otros" tienen niveles similares de enzimas mediana, mientras que los asiáticos tienen niveles significativamente más altos y los negros tienen niveles significativamente más bajos.