R en Hadoop y el idioma r

La disciplina de aprendizaje máquina tiene un catálogo rico y extenso de técnicas. Mahout trae una gama de herramientas estadísticas y algoritmos a la mesa, pero sólo capta una fracción de esas técnicas y algoritmos, ya que la tarea de convertir estos modelos para un marco MapReduce es un desafío.

Con el tiempo, Mahout es seguro que continuará expandiendo su caja de herramientas de estadística, pero hasta entonces todos los científicos y estadísticos que hay datos deben ser conscientes de las alternativas de software de modelado estadístico - que es donde R entra.

El lenguaje R es una estadística entorno lingüístico y el desarrollo de código abierto potente y popular. Ofrece un ecosistema análisis ricos que pueden ayudar a los científicos de datos con la exploración de datos, visualización, análisis estadístico y la computación, modelado, aprendizaje automático, y la simulación. El lenguaje R comúnmente usado por los estadísticos, la minería de datos, analistas de datos, y (ahora) los científicos de datos.

Programadores de lenguaje R tienen acceso a la Integral de la Red R Archivo (CRAN) bibliotecas que, a partir del momento de escribir esto, contiene más de 3.000 paquetes de análisis estadístico. Estos complementos se pueden tirar en cualquier proyecto de I, proporcionando ricas herramientas analíticas para el funcionamiento de la clasificación, regresión, clustering, modelado lineal y algoritmos de aprendizaje automático más especializados.

El lenguaje es accesible para quienes están familiarizados con simples tipos de estructura de datos - vectores, escalares, tramas de datos (matrices), y similares - comúnmente utilizados por los estadísticos, así como programadores.

Fuera de la caja, uno de los principales escollos con el uso de la lengua R es la falta de apoyo que ofrece para ejecutar tareas simultáneas. Herramientas lingüísticas estadísticos como R sobresalen en un análisis riguroso, pero carecen de escalabilidad y soporte nativo para los cálculos paralelos.

Estos sistemas no son distribuibles y no se desarrollaron para ser escalable para el petabyte-mundo moderno de los grandes datos. Propuestas para superar estas limitaciones tienen que extender el alcance del R allá de carga en memoria y entornos de ejecución de ordenador individuales, manteniendo al mismo tiempo un toque de R como algoritmos estadísticos de fácil despliegue.

Sobre el autor

Fundamentos de la programación r para análisis predictivo

R es un lenguaje de programación originalmente escrita para los estadísticos que hacer una análisis estadístico, incluyendo el análisis predictivo. Es un software de código abierto, que se utiliza ampliamente en el mundo académico para…

Grandes de análisis de datos de soluciones de proveedores

Un número de proveedores en el mercado hoy apoyar la creciente necesidad de soluciones de datos grandes para su negocio. Aquí está una lista de algunas soluciones que pueden resultar interesantes:IBM está tomando un enfoque empresarial de…

Big data: la necesidad de metadatos en los flujos de datos

La mayoría de grandes profesionales de la gestión de datos están familiarizados con la necesidad de gestionar los metadatos en entornos de gestión de base de datos estructurados. Estas fuentes de datos son fuertemente tipados (por ejemplo, los…

La elección de los mejores lenguajes de programación para la ciencia de datos

La codificación es una de las habilidades primarias en la caja de herramientas de un científico de datos. Algunas aplicaciones increíblemente poderosos han hecho con éxito acabar con la necesidad de codificar en algunos contextos de datos en la…

Clases de análisis de datos grandes

Herramientas y técnicas de análisis existentes serán muy útiles para dar sentido a los datos grandes. Los algoritmos que forman parte de estas herramientas, sin embargo, deben ser capaces de trabajar con grandes cantidades de potencialmente en…

La ciencia de datos para dummies

Tradicionalmente, Big Data es el término para los datos que tiene increíble volumen, velocidad y variedad. Tecnologías de bases de datos tradicionales no son capaces de manejar grandes volúmenes de datos - se requieren soluciones de datos de…

¿Cómo elegir un algoritmo para un modelo de análisis predictivo

Varios algoritmos estadísticos, de minería de datos, y la máquina de aprendizaje están disponibles para su uso en el modelo de análisis predictivo. Usted está en una mejor posición para seleccionar un algoritmo después de que haya definido…

Cómo utilizar mahout apache para análisis predictivo

Una herramienta de código abierto que es únicamente útil en el análisis predictivo es Apache Mahout. Esta biblioteca de aprendizaje de máquinas incluye versiones a gran escala de la agrupación, clasificación, filtrado colaborativo y otros…

Minería sus datos utilizando la ciencia de datos

En la era de los grandes datos, parece que las organizaciones de todo tipo y tamaño están en una misión de contratación. Quieren contratar a científicos de datos para que puedan utilizar los datos y la toma de decisiones los datos informados…

La minería de datos para el almacenamiento de datos

A veces, la minería de datos para el almacenamiento de datos no se mezcla con las otras formas de inteligencia de negocios. Esta falta de integración se produce por dos razones:Los usuarios de negocios no tienen el conocimiento requerido en bases…

El software comercial para el análisis de bioestadística

Programas estadísticos comerciales suelen proporcionar una amplia gama de capacidades, soporte de usuario personal (como una línea de ayuda telefónica), y alguna razón para creer (o al menos a la esperanza) de que el software será de alrededor…

Los datos estadísticos utilizados en la comercialización de datos impulsada

Cualquiera que haya utilizado una hoja de cálculo está familiarizado con la idea de tipos de datos. Datos viene en dos sabores básicos: numéricas y de caracteres - números y texto. Datos de Carácter no está involucrado en el análisis…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » R en Hadoop y el idioma r