R en Hadoop y el idioma r

La disciplina de aprendizaje máquina tiene un catálogo rico y extenso de técnicas. Mahout trae una gama de herramientas estadísticas y algoritmos a la mesa, pero sólo capta una fracción de esas técnicas y algoritmos, ya que la tarea de convertir estos modelos para un marco MapReduce es un desafío.

Con el tiempo, Mahout es seguro que continuará expandiendo su caja de herramientas de estadística, pero hasta entonces todos los científicos y estadísticos que hay datos deben ser conscientes de las alternativas de software de modelado estadístico - que es donde R entra.

El lenguaje R es una estadística entorno lingüístico y el desarrollo de código abierto potente y popular. Ofrece un ecosistema análisis ricos que pueden ayudar a los científicos de datos con la exploración de datos, visualización, análisis estadístico y la computación, modelado, aprendizaje automático, y la simulación. El lenguaje R comúnmente usado por los estadísticos, la minería de datos, analistas de datos, y (ahora) los científicos de datos.

Programadores de lenguaje R tienen acceso a la Integral de la Red R Archivo (CRAN) bibliotecas que, a partir del momento de escribir esto, contiene más de 3.000 paquetes de análisis estadístico. Estos complementos se pueden tirar en cualquier proyecto de I, proporcionando ricas herramientas analíticas para el funcionamiento de la clasificación, regresión, clustering, modelado lineal y algoritmos de aprendizaje automático más especializados.

El lenguaje es accesible para quienes están familiarizados con simples tipos de estructura de datos - vectores, escalares, tramas de datos (matrices), y similares - comúnmente utilizados por los estadísticos, así como programadores.

Fuera de la caja, uno de los principales escollos con el uso de la lengua R es la falta de apoyo que ofrece para ejecutar tareas simultáneas. Herramientas lingüísticas estadísticos como R sobresalen en un análisis riguroso, pero carecen de escalabilidad y soporte nativo para los cálculos paralelos.

Estos sistemas no son distribuibles y no se desarrollaron para ser escalable para el petabyte-mundo moderno de los grandes datos. Propuestas para superar estas limitaciones tienen que extender el alcance del R allá de carga en memoria y entornos de ejecución de ordenador individuales, manteniendo al mismo tiempo un toque de R como algoritmos estadísticos de fácil despliegue.