Los factores que aumentan la escala de análisis estadístico en hadoop
La razón la gente degustar sus datos antes de ejecutar el análisis estadístico en Hadoop es que este tipo de análisis a menudo requiere importantes recursos de computación. Esto no es sólo acerca de los volúmenes de datos: hay cinco factores principales que influyen en la escala de análisis estadístico:
Esto de fácil, pero tenemos que mencionar: el volumen de datos en el que se va a realizar el análisis definitivamente determina la escala del análisis.
El número de transformaciones necesarias en el conjunto de datos antes de aplicar modelos estadísticos es sin duda un factor.
El número de correlaciones por pares que necesita para calcular juega un papel.
El grado de complejidad de los cálculos estadísticos que se aplicará es un factor.
El número de modelos estadísticos que se aplicará al conjunto de datos juega un papel importante.
Hadoop ofrece una manera de salir de este dilema, proporcionando una plataforma para realizar cálculos de procesamiento masivamente paralelo en los datos en Hadoop.
Al hacerlo, es capaz de voltear los datos analíticos Flow en lugar de mover los datos desde su repositorio para el servidor de análisis, Hadoop ofrece analytics directamente a los datos. Más específicamente, HDFS le permite almacenar sus montañas de datos y luego traer el cálculo (en forma de tareas MapReduce) a los nodos esclavos.
El reto común que supone pasar de los sistemas tradicionales multi-proceso simétrico estadísticos (SMP) a la arquitectura Hadoop es la localidad de los datos. En las plataformas SMP tradicionales, múltiples procesadores comparten el acceso a un único recurso de memoria principal.
En Hadoop, HDFS replica particiones de datos a través de múltiples nodos y máquinas. Además, los algoritmos estadísticos que fueron diseñados para el procesamiento de datos en memoria ahora deben adaptarse a los conjuntos de datos que abarquen varios nodos / bastidores y no podía esperar para caber en un solo bloque de la memoria.