Integración Hadoop con r

En un principio, los grandes datos y R no eran amigos naturales. R programación requiere que todos los objetos pueden cargar en la memoria principal de una sola máquina. Las limitaciones de esta arquitectura se dieron cuenta rápidamente cuando los datos se convierte en una gran parte de la ecuación.

Conteúdo

Rhive
Rhadoop
Revolución r
Ibm biginsights grande r

En contraste, los sistemas de archivos distribuidos tales como Hadoop faltan fuertes técnicas estadísticas, pero son ideales para escalar operaciones complejas y tareas. Vertical escalar soluciones - que requiere inversión en hardware de supercomputación costosa - a menudo no pueden competir con el regreso de costo-valor ofrecido por distribuidos, cúmulos de hardware de los productos básicos.

Para ajustarse a las limitaciones, de una sola máquina en memoria del lenguaje R, los científicos de datos a menudo tenían que restringir el análisis sólo a un subconjunto de los datos de las muestras disponibles. Antes de la integración más profunda con Hadoop, los programadores de lenguaje R ofrecen una estrategia de escalabilidad horizontal para la superación de los retos en la memoria que plantean los grandes conjuntos de datos en las máquinas individuales.

Esto se logró mediante sistemas de paso de mensajes y paginación. Esta técnica es capaz de facilitar el trabajo sobre los conjuntos de datos muy grandes para almacenar en simultaneously- memoria principal sin embargo, su enfoque de programación de bajo nivel presenta una pronunciada curva de aprendizaje para quienes no están familiarizados con los paradigmas de programación paralela.

Enfoques alternativos buscan integrar las capacidades estadísticas de R con grupos distribuidos de Hadoop de dos maneras: la interfaz con los lenguajes de consulta SQL, y la integración con Hadoop Streaming. Con la primera, el objetivo es aprovechar las plataformas de almacenamiento de datos de SQL existentes, como Colmena y cerdo. Estos esquemas simplifican la programación de trabajo Hadoop usando declaraciones de estilo SQL con el fin de ofrecer una programación de alto nivel para la realización de trabajos estadísticos sobre los datos de Hadoop.

Para los programadores que deseen programar trabajos de MapReduce en idiomas (incluyendo R) distintos de Java, una segunda opción es hacer uso de la API de Streaming de Hadoop. Trabajos de MapReduce Enviado por Usuarios se someten a transformaciones de datos con la ayuda de flujos estándares UNIX y serialización, lo que garantiza la entrada de Java compatible con Hadoop - sin importar el idioma originalmente introducida por el programador.

Desarrolladores continúan explorando diversas estrategias para aprovechar la capacidad de computación distribuida de MapReduce y la capacidad de almacenamiento casi ilimitado de HDFS en formas que pueden ser explotadas por R.

Integración de Hadoop con R está en curso, con las ofertas disponibles de IBM (R Grande como parte de BigInsights) y de la revolución de Analytics (Revolución R Enterprise). Bridging soluciones que integran la programación de alto nivel y consulta de idiomas con Hadoop, como RHive y RHadoop, también están disponibles.

Fundamentalmente, cada sistema tiene como objetivo ofrecer las profundas capacidades de análisis del lenguaje R para conjuntos de datos mucho mayores.

RHive

El marco RHive sirve como un puente entre el lenguaje R y Colmena. RHive entrega las ricas bibliotecas estadísticos y algoritmos de R a los datos almacenados en Hadoop al extender el lenguaje de la Colmena-SQL como consulta (HiveQL) con funciones-R específico. A través de las funciones RHive, puede utilizar HiveQL aplicar R modelos estadísticos a los datos en el clúster Hadoop que ha catalogado utilizando Colmena.

RHadoop

Otro marco de código abierto disponible para los programadores de R es RHadoop, una colección de paquetes destinados para ayudar a controlar la distribución y análisis de datos con Hadoop. Tres paquetes de nota - rmr2, rhdfs y rhbase - proporcionar la mayoría de la funcionalidad de RHadoop:

rmr2: El paquete rmr2 apoya la traducción del lenguaje R en trabajos de MapReduce Hadoop compatibles (producir eficiente, código de MapReduce de bajo nivel de código R de nivel superior).
rhdfs: El paquete rhdfs proporciona un lenguaje R API para la gestión de archivos a través de las tiendas de HDFS. Usando rhdfs, los usuarios pueden leer en las tiendas HDFS a una trama de datos R (matriz), y de manera similar escribir datos de estas matrices R de nuevo en el almacenamiento HDFS.
rhbase: paquetes rhbase proporcionan un lenguaje API R también, pero su meta en la vida es hacer frente a la gestión de base de datos para tiendas HBase, en lugar de archivos HDFS.

Revolución R

Revolución R (por Revolution Analytics) es un R oferta comercial con el apoyo a la integración en los sistemas R Hadoop distribuidos. Revolución R se compromete a entregar un mejor rendimiento, funcionalidad y facilidad de uso para R en Hadoop. Proporcionar análisis profundo parecido a R, R Revolución hace uso de la biblioteca escalador de la compañía - una colección de algoritmos de análisis estadísticos desarrollados específicamente para las colecciones de datos grande de escala empresarial.

Escalador tiene como objetivo ofrecer una rápida ejecución del código de programa R sobre clusters Hadoop, permitiendo al desarrollador R para centrarse exclusivamente en sus algoritmos estadísticos y no en MapReduce. Además, se encarga de numerosas tareas de análisis, tales como la preparación de datos, visualización y pruebas estadísticas.

IBM BigInsights Grande R

Gran R ofrece la integración de extremo a extremo entre R y oferta Hadoop de IBM, BigInsights, permitiendo a los desarrolladores de I para analizar los datos de Hadoop. El objetivo es aprovechar la sintaxis de programación de R y paradigmas de codificación, al tiempo que garantiza que los datos a utilizar, estancias en HDFS. Tipos de datos R sirven como sustitutos a estos almacenes de datos, lo que significa desarrolladores R no necesitan pensar en construcciones MapReduce de bajo nivel o cualquier lenguajes de scripting Hadoop-específicos (como el cerdo).

Tecnología BigInsights Grande R soporta múltiples fuentes de datos - incluyendo archivos planos, HBase y formatos de almacenamiento Hive - mientras que proporciona la ejecución en paralelo y con particiones de código R en el clúster Hadoop. Se esconde muchas de las complejidades en los HDFS subyacentes y los marcos de MapReduce, lo que permite funciones de Big R para realizar análisis de datos integrales - en tanto los datos estructurados y no estructurados.

Por último, la escalabilidad de motor estadístico de Big R permite a los desarrolladores de I para hacer uso de ambas técnicas estadísticas predefinidas, así como autor nuevas propios algoritmos.

Sobre el autor

Hadoop distribuido sistema de archivos (HDFS) federación

La solución a la expansión de grupos de Hadoop indefinidamente es federar el NameNode. Antes de Hadoop 2 entró en escena, racimos de Hadoop tuvieron que vivir con el hecho de que NameNode coloca límites al grado en que podrían escalar. Pocos…

Cerdo Hadoop y latín de cerdo para los grandes datos

El poder y la flexibilidad de Hadoop para grandes datos son inmediatamente visibles para los desarrolladores de software principalmente porque el ecosistema Hadoop fue construido por los desarrolladores, para los desarrolladores. Sin embargo, no…

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

Ibm grande sql y hadoop

IBM tiene una larga historia de trabajo con SQL y la tecnología de base de datos. De acuerdo con esta historia, la solución de IBM para SQL en Hadoop aprovecha los componentes de sus tecnologías de bases de datos relacionales que son portado para…

Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.Cerdo tiene dos modos de ejecutar secuencias de comandos:Modo local: Todos…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Bases de datos de procesamiento masivamente paralelo

Para proporcionar una mejor comprensión de las alternativas SQL-en-Hadoop Hive a, podría ser útil revisar una cartilla en el procesamiento paralelo masivo (MPP) bases de datos primero.Apache Hive es en capas en la parte superior del sistema de…

Cerdo latino en los programas de cerdo de Hadoop

Cerdo latín es el idioma para programas de cerdo. Cerdo traduce el guión Pig Latin en puestos de trabajo MapReduce que pueda ser ejecutado dentro del clúster Hadoop. Si viene con cerdo América, el equipo de desarrollo sigue tres principios…

R en Hadoop y el idioma r

La disciplina de aprendizaje máquina tiene un catálogo rico y extenso de técnicas. Mahout trae una gama de herramientas estadísticas y algoritmos a la mesa, pero sólo capta una fracción de esas técnicas y algoritmos, ya que la tarea de…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Ejecución de modelos estadísticos en MapReduce de Hadoop

La conversión de modelos estadísticos para funcionar en paralelo es una tarea difícil. En el paradigma tradicional para la programación en paralelo, de acceso a memoria se regula mediante el uso de hilos - subprocesos creados por el sistema…

Almacenamiento de datos estructurados y procesamiento de Hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características fundamentales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Integración Hadoop con r