Diagramas de tallo y hojas: técnica gráfica de datos estadísticos
LA tallo y hoja trama es un dispositivo gráfico en el que la distribución de un conjunto de datos está organizada por el valor numérico de las observaciones en el conjunto de datos. El diagrama consiste en una "madre", que muestra las diferentes categorías en los datos, y una "hoja", que muestra los valores de las observaciones individuales en el conjunto de datos.
Por ejemplo, el siguiente es un diagrama de tallo y hojas para los precios diarios de las acciones de Microsoft del 1 de enero 2013 al 31 de diciembre de 2013. Los precios van desde $ 25.16 a $ 38.14:
En el diagrama de tallo y hojas, cada línea representa una sola categoría- para este conjunto de datos, cada categoría es una cantidad de dinero. Por ejemplo, la categoría 32 se compone de todos los precios entre $ 32.00 y $ 32.99. Cada precio de las acciones de Microsoft se cotiza en dólares y centavos. El lado izquierdo de la barra muestra los dólares (los tallos) - el lado derecho de la barra muestra los centavos (las hojas), después de redondear a los 10 centavos más cercanos. Por ejemplo, un precio de $ 32.23 se redondea a $ 32.20, lo que aparece como un 2 a la derecha, lado de la barra para la categoría 32. Un precio de $ 33.48 se redondea a $ 33.50- esto aparece como un 5 a la derecha; lado de la barra para la categoría 33.
Usando esta técnica, es fácil ver cuántos precios correspondiente a cada categoría. Por ejemplo, hubo 14 días de negociación en el conjunto de datos en la que el precio de las acciones de Microsoft fue entre $ 25.00 y $ 25.99. Hubo tres días de negociación en el que el precio de las acciones de Microsoft estaba entre $ 29,00 y $ 29,99. Un precio entre $ 33.00 y $ 33.99 se produjo con mayor frecuencia, y un precio de entre $ 38.00 y $ 38.99 fue la más frecuente durante el año.
Una de las ventajas de un diagrama de tallo y hoja es que es fácil identificar la modo de un conjunto de datos. (Recordemos que la moda es el valor que se produce con mayor frecuencia en un conjunto de datos.) Si nos fijamos sólo en los rangos de dólares, entonces es fácil de detectar qué rango contiene la mayoría de las observaciones - el que tiene la hoja más larga. En este caso, un precio en el rango de 33 ($ 33.00- $ 33,99) se considera que es el modo, ya que contiene la mayoría de las observaciones.
Otra ventaja de este esquema es que valores atípicos son fáciles de detectar. Un valor atípico es una observación en un conjunto de datos que es significativamente más grande o más pequeña que las otras observaciones en el conjunto de datos. Un valor atípico se indica por una gran brecha entre la primera o la última tallo y el uno al lado más cercano. (Capítulo 10 habla más sobre los valores atípicos.)
Un inconveniente diagramas de tallo y hojas es que se vuelven difíciles de interpretar para los grandes conjuntos de datos debido a que el tamaño de la hoja se vuelve difícil de manejar.