Procesamiento distribuido con MapReduce Hadoop

Hadoop MapReduce implica el procesamiento de una secuencia de operaciones sobre conjuntos de datos distribuidos. Los datos se compone de pares clave-valor, y los cálculos sólo tienen dos fases: una fase de un mapa y una fase de reducir. Trabajos de MapReduce definidos por el usuario se ejecutan en los nodos de computación del clúster.

En términos generales, un trabajo MapReduce se ejecuta como sigue:

Durante la fase de Mapa, los datos de entrada se divide en un gran número de fragmentos, cada uno de los cuales está asignado a una tarea mapa.
Estas tareas mapa se distribuyen en todo el clúster.
Cada tarea mapa procesa los pares clave-valor de su fragmento asignado y produce un conjunto de pares clave-valor intermedio.
El conjunto de datos intermedio está ordenada por clave, y los datos ordenados se divide en una serie de fragmentos que coincide con el número de reducir tareas.
Durante la fase de Reducir, cada reducen tarea procesa el fragmento de datos que se asignó a la misma y produce un par clave-valor de salida.
Estos reducen las tareas también se distribuyen en todo el clúster y escriben su producción a HDFS cuando haya terminado.

El marco Hadoop MapReduce en antes (pre-versión 2) comunicados de Hadoop tiene un único servicio maestro llamado JobTracker y varios servicios de esclavos llamados TaskTrackers, uno por cada nodo del clúster.

Cuando usted envía un trabajo MapReduce a la JobTracker, el trabajo se coloca en una cola y luego se ejecuta de acuerdo con las reglas de programación definidos por un administrador. Como era de esperar, la JobTracker gestiona la asignación de mapa-y-reducir tareas a los TaskTrackers.

Con Hadoop 2, un nuevo sistema de gestión de recursos está en el lugar llamado HILO (abreviatura de Yet LAtro Resource Manager). HILO ofrece servicios de programación y gestión de los recursos genéricos para que pueda ejecutar más que simples aplicaciones MapReduce en el clúster Hadoop. La arquitectura JobTracker / TaskTracker sólo podía correr MapReduce.

HDFS también tiene una arquitectura maestro / esclavo:

Servicio de Maestro: Llamado NameNode, que controla el acceso a los archivos de datos.
Servicios de esclavos: Llamado DataNodes, que están distribuidos por un nodo del clúster. DataNodes gestionar el almacenamiento que está asociada con los nodos en los que se ejecutan, sirviendo a los clientes leer y escribir solicitudes, entre otras tareas.

Sobre el autor

¿Cómo poner en marcha una aplicación basada hilo

Para mostrar cómo los distintos HILO (otro negociador de recursos) los componentes trabajan juntos, se puede caminar a través de la ejecución de una aplicación. Por el bien del argumento, que puede ser una aplicación de MapReduce, con la…

Cómo escribir aplicaciones MapReduce

La API de MapReduce está escrito en Java, por lo que las aplicaciones MapReduce son principalmente basados en Java. La siguiente lista especifica los componentes de una aplicación MapReduce que se puede desarrollar:Conductor (obligatorio):…

Entrada divide en MapReduce de Hadoop

La forma HDFS se ha establecido, se descompone muy grandes archivos en bloques grandes (por ejemplo, la medición de 128 MB), y almacena tres copias de estos bloques en diferentes nodos del clúster. HDFS no tiene conciencia del contenido de estos…

Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.Cerdo tiene dos modos de ejecutar secuencias de comandos:Modo local: Todos…

Administrar los recursos de datos grandes y aplicaciones con hilo hadoop

Planificación de tareas y seguimiento de los grandes datos son partes integrales de Hadoop MapReduce y se pueden usar para administrar los recursos y aplicaciones. Las primeras versiones de Hadoop apoyaron un sistema de seguimiento de trabajos y…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Nodos Máster en racimos de Hadoop

Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

Maestro aplicación de hilado en hadoop

A diferencia de otros componentes HILO (otro negociador de recursos aún), ningún componente en Hadoop 1 asigna directamente al Maestro de aplicaciones. En esencia, este es un trabajo que el JobTracker hizo para cada aplicación, pero la…

Administrador de recursos de Hilo

El componente central de hilo (Sin embargo, otro negociador de recursos) es el Administrador de recursos, que regula todos los recursos de procesamiento de datos en el cluster Hadoop. En pocas palabras, el Administrador de recursos es un programador…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Procesamiento distribuido con MapReduce Hadoop