Mostrar el de distribución con histogramas

Histogramas

son gráficos de barras que muestran qué fracción de los sujetos tienen valores comprendidos en los intervalos especificados. El propósito principal de un histograma es mostrarle cómo se distribuyen los valores de un valor numérico. Esta distribución es una aproximación de la verdadera distribución de frecuencias de la población de esa variable.

imagen0.jpg

La curva suave muestra cómo los valores de CI se distribuyen en una población infinitamente grande. La altura de la curva en cualquier valor IQ es proporcional a la fracción de la población en la proximidad inmediata de ese IQ. Esta curva tiene la típica " campana " forma de una distribución normal.

El histograma indica cómo podrían distribuirse los CI de 60 sujetos de la muestra al azar de la población. Cada barra representa un intervalo de valores de CI con un ancho de diez puntos de CI, y la altura de cada barra es proporcional al número de sujetos en la muestra cuyo IQ cayó dentro de ese intervalo.

Distribuciones log-normal

Debido a que una muestra es solamente una representación imperfecta la población, determinando la forma precisa de una distribución puede ser difícil a menos que su tamaño de la muestra es muy grande. Sin embargo, un histograma por lo general ayuda a detectar sesgada datos.

Una forma sesgada es típico de una log-normal distribución, que se produce muy a menudo en el trabajo biológico. Se llama log-normal ya que si se toma el logaritmo de cada valor de datos (no importa qué tipo de logaritmo se toma), los registros resultantes tendrán una distribución normal.

image1.jpg

Así que es una buena práctica para preparar un histograma para cada variable numérica va a analizar, para ver si es notoriamente sesgada y, de ser así, si un logarítmica " la transformación " hace que la distribución más casi normal.

Otras distribuciones anormales

Conectar la normalidad no es el único tipo de no normalidad que pueden surgir en los datos del mundo real. Dependiendo del proceso subyacente que da lugar a los datos, los números pueden ser distribuidos de otras maneras.

Por ejemplo, los recuentos de eventos a menudo se comportan de acuerdo con la distribución de Poisson y pueden ser, al menos aproximadamente, normalizado por la raíz cuadrada de cada cargo (en vez del logaritmo, como lo hace para los datos de log-normal). Sin embargo, otros procesos pueden dar lugar a la izquierda; datos asimétricos o para datos con dos (o más) picos.

¿Y si ni el log-normal ni la transformación de raíz cuadrada normaliza sus datos asimétricos? Un enfoque consiste en utilizar el Box-Cox transformación, que tiene esta fórmula general: Transformado X = (XLA - 1) /LA, dónde LA es un parámetro ajustable que puede variar de valores negativos a positivos.

Dependiendo del valor de LA, esta transformación a menudo puede hacer la izquierda; sesgada o derecha; datos asimétricos más simétrico (y distribuido más normalmente). La figura muestra cómo la transformación de Box-Cox puede ayudar a normalizar datos asimétricos.

image2.jpg

Algunos programas de software le permite variar LA a través de una gama de valores positivos o negativos utilizando un cursor en la pantalla que se puede mover con el ratón. A medida que desliza el LA valora de ida y vuelta, se ve el histograma cambiar su forma de izquierda a derecha; sesgada a simétrica a derecha; sesgada. Aquí, el uso de LA = 0.12 normaliza los datos bastante bien.

Cuando LA es exactamente 0, la fórmula de Box-Cox se convierte en 0/0, que es indeterminado. Pero se puede demostrar que a medida LA se aproxima a 0 (ya sea desde el lado positivo o negativo), la fórmula Box-Cox se convierte en la misma que la función logaritmo. Así que la transformación logarítmica es sólo un caso especial de la transformación más general de Box-Cox.

Si usted no puede encontrar cualquier transformación que hace que sus datos se vean aún aproximadamente normal, entonces usted tiene que analizar sus datos utilizando no paramétrico métodos, que no asumen que sus datos se distribuyen normalmente.




» » » » Mostrar el de distribución con histogramas