Ejecución de modelos estadísticos en MapReduce de Hadoop

La conversión de modelos estadísticos para funcionar en paralelo es una tarea difícil. En el paradigma tradicional para la programación en paralelo, de acceso a memoria se regula mediante el uso de hilos - subprocesos creados por el sistema operativo para distribuir una única memoria compartida entre varios procesadores.

Factores tales como las condiciones de carrera entre los hilos de la competencia - cuando dos o más hilos intentan cambiar los datos compartidos a la vez - pueden influir en el rendimiento de su algoritmo, así como afectar a la precisión de los resultados estadísticos de sus salidas del programa - particularmente para largo ejecutar los análisis de grandes conjuntos de muestras.

Un enfoque pragmático a este problema es asumir que no muchos estadísticos conocerán los entresijos de MapReduce (y viceversa), ni se puede esperar que van a ser conscientes de todas las trampas que la programación paralela conlleva. Colaboradores en el proyecto Hadoop tienen (y siguen desarrollando) herramientas estadísticas con estas realidades en mente.

El resultado: Hadoop ofrece muchas soluciones para la implementación de los algoritmos necesarios para llevar a cabo la modelización estadística y análisis, sin sobrecargar el estadístico con las consideraciones de programación paralela matizadas.




» » » » Ejecución de modelos estadísticos en MapReduce de Hadoop