Distribuciones de probabilidad en el análisis estadístico de datos grande

Distribuciones de probabilidad es una de las muchas técnicas estadísticas que pueden ser usados ​​para analizar los datos para encontrar patrones útiles. Se utiliza un Distribución de probabilidad para calcular las probabilidades asociadas con los elementos de un conjunto de datos:

  • Distribución binomial: Se podría utilizar la distribución binomial para analizar las variables que pueden asumir solamente uno de los dos valores. Por ejemplo, puede determinar la probabilidad de que un determinado porcentaje de los miembros en un club deportivo se quedan; mano.

  • Distribución de Poisson: Se podría utilizar la distribución de Poisson para describir la probabilidad de que un determinado número de eventos que ocurren durante un intervalo de tiempo. Por ejemplo, podría ser usado para describir la probabilidad de un número especificado de los accesos a un sitio web durante la próxima hora.

  • Distribución normal: La distribución normal es la distribución más utilizado probabilidad en la mayoría de las disciplinas, incluyendo la economía, las finanzas, el marketing, la biología, la psicología, y muchos otros. Uno de los rasgos característicos de la distribución normal es simetría - la probabilidad de una variable siendo una distancia dada por debajo de la media de la distribución es igual a la probabilidad de que sea la misma distancia por encima de la media.

    Por ejemplo, si la altura media de todos los hombres en los Estados Unidos es de 70 pulgadas, y alturas se distribuyen normalmente, un hombre elegido al azar es igualmente probable que sea entre 68 y 70 pulgadas de alto como él es estar entre 70 y 72 pulgadas de alto .

    La distribución normal funciona bien con muchas aplicaciones. Por ejemplo, se utiliza a menudo en el campo de las finanzas para describir los rendimientos de los activos financieros. Debido a su facilidad de interpretación y aplicación, la distribución normal se utiliza a veces incluso cuando el supuesto de normalidad es sólo aproximadamente correcta.

  • Distribución t de Student: Distribución t de Student es similar a la distribución normal, pero con la distribución t de Student, valores extremadamente pequeños o extremadamente grandes son mucho más probable que ocurra. Esta distribución se utiliza a menudo en situaciones en las que una variable exhibe demasiada variación para ser coherente con la distribución normal. Esto es cierto cuando se están analizando las propiedades de muestras pequeñas. Con muestras pequeñas, la variación entre muestras es probable que sea bastante considerable, por lo que la distribución normal no debe ser usado para describir sus propiedades.

    Distribución t de Student fue desarrollado por WS Gosset mientras trabajaba en la empresa cervecera Guinness. Él estaba tratando de describir las propiedades de los pequeños medios de muestra.

  • La distribución de chi-cuadrado: La distribución de chi-cuadrado es apropiado para varios tipos de aplicaciones. Por ejemplo, se puede utilizar para determinar si una población sigue una distribución de probabilidad particular. También puede utilizarlo para comprobar si la varianza de una población es igual a un valor especificado, y para la prueba de la independencia de los dos conjuntos de datos.

  • El F-distribución: La distribución F se deriva de la distribución chi-cuadrado. Se utiliza para probar si las varianzas de dos poblaciones son iguales entre sí. La distribución F también es útil en aplicaciones tales como análisis de regresión.




» » » » Distribuciones de probabilidad en el análisis estadístico de datos grande