Nodos Máster en racimos de Hadoop

Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los puntos únicos de fallo, por lo que ver dos interruptores y tres nodos principales.

Conteúdo

Almacenamiento recomendada
Procesadores recomendados
Memoria recomendada
Redes recomendado

NameNode: Gestiona el almacenamiento HDFS. Para garantizar una alta disponibilidad, usted tiene a la vez un NameNode activo y un NameNode espera. Cada ejecuta en su propio nodo maestro, dedicado.
Nodo Checkpoint (o nodo de copia de seguridad): Proporciona puntos de control servicios para la NameNode. Esto implica la lectura de registro de ediciones del NameNode de cambios en los archivos en HDFS (nuevos, eliminados y archivos adjuntos) desde el último punto de control, y su aplicación a archivo maestro del NameNode que asigna los archivos a los bloques de datos.
Además, el nodo de copia de seguridad mantiene una copia del espacio de nombres del sistema de archivos en la memoria y lo mantiene en sintonía con el estado de la NameNode. Para las implementaciones de alta disponibilidad, no utilice un nodo de punto de control o nodo de copia de seguridad - utilizar un NameNode espera en su lugar. Además de ser una espera activa para la NameNode, Standby NameNode mantiene los servicios de puntos de control y mantiene una copia actualizada del espacio de nombres del sistema de archivos en la memoria.
JournalNode: Recibe las modificaciones del registro de edición que indican cambios en los archivos en HDFS del NameNode. Al menos tres servicios JournalNode (y siempre es un número impar) debe estar corriendo en un grupo, y son lo suficientemente ligero que puede colocarse con otros servicios en los nodos principales.
Administrador de recursos: Supervisa la programación de tareas y gestión de los recursos del cluster Hadoop aplicación. Este servicio es el corazón de hilo.
JobTracker: Para Hadoop 1 servidores, se ocupa de la gestión de recursos de clúster y la programación. Con HILO, el JobTracker es obsoleto y no se utiliza. Un número de implementaciones de Hadoop aún no han migrado a Hadoop 2 y el hilo.
HMaster: Supervisa los servidores región HBase y se ocupa de todos los cambios en los metadatos. Para garantizar una alta disponibilidad, asegúrese de usar una segunda instancia HMaster. El servicio HMaster es lo suficientemente ligero para colocarse con otros servicios en los nodos principales. En Hadoop 1, instancias del servicio HMaster ejecutan en los nodos principales. En Hadoop 2, con Hoya (HBase a los hilados), instancias HMaster ejecutan en contenedores en nodos esclavos.
Zookeeper: Coordina componentes distribuidos y proporciona mecanismos para mantenerlos sincronizados. Zookeeper se utiliza para detectar el fracaso de la NameNode y elegir un nuevo NameNode. También se utiliza con HBase para gestionar los estados de la HMaster y los RegionServers.
Al igual que con la JournalNode, necesita al menos tres casos de nodos Zookeeper (y siempre un número impar), y que es lo suficientemente ligero para colocarse con otros servicios en los nodos principales.

Aquí, usted tiene tres nodos principales (con el mismo hardware), donde los servicios clave NameNode activo, en espera NameNode y Administrador de recursos cada uno tiene su propio servidor. Hay servicios JournalNode y Zookeeper que se ejecutan en cada servidor, así, pero estos son ligeros y no serán una fuente de contención de recursos con los servicios NameNode y Administrador de recursos.

Los principios son los mismos para Hadoop 1, donde se necesita un nodo maestro dedicado para la NameNode, NameNode secundaria, y los servicios JobTracker.

Si va a utilizar HBase con Hoya en Hadoop 2, usted no necesita cualquier servicio adicional. Para Hadoop 1 despliegues utilizando HBase, echa un vistazo a la siguiente figura para el despliegue de los servicios de maestros nodos del cluster Hadoop.

Hay dos diferencias al comparar estos servidores maestros a los servidores maestros Hadoop 1 sin apoyo HBase: aquí se necesita dos servicios HMaster (uno para coordinar HBase, y uno para actuar como un modo de espera) y servicios Zookeeper en los tres nodos maestros para manejar la conmutación por error .

Si tiene intención de utilizar el clúster Hadoop 1 sólo para HBase, se puede hacer sin el servicio JobTracker, ya HBase no depende de la infraestructura Hadoop MapReduce 1.

Cuando la gente habla de hardware para Hadoop, por lo general, hacen hincapié en el uso de mercancía - los componentes de los baratos. Porque tienes que desembolsar por sólo unos pocos nodos maestros (por lo general, tres o cuatro), no está afectada por la multiplicación de los costes si, por ejemplo, usted decide utilizar unidades de disco duro caros.

Tenga en cuenta que, sin nodos principales, que no queda racimo Hadoop. Nodos Máster tienen una función de misión crítica, ya pesar de que lo que necesita la redundancia, se deben diseñar con alta disponibilidad y flexibilidad en mente.

Almacenamiento recomendada

Para nodos maestros Hadoop, sin importar el número de nodos esclavos o usos de la agrupación, las características de almacenamiento son consistentes. Utilice cuatro unidades de 900GB SAS, junto con un controlador de disco duro RAID configurado para RAID 1 + 0. Unidades SAS son más caros que los discos SATA, y tienen menor capacidad de almacenamiento, pero son más rápido y mucho más confiable.

Implementación de las unidades SAS como un array RAID asegura que los servicios de gestión de Hadoop tienen una tienda redundante para sus datos de misión crítica. Esto le da el almacenamiento lo suficientemente estable, rápido y redundante para apoyar la gestión de su clúster Hadoop.

Procesadores recomendados

En el momento de escribir estas líneas, la mayoría de las arquitecturas de referencia recomiendan el uso de placas base con dos sockets de CPU, cada uno con seis u ocho núcleos. La arquitectura Intel Ivy Bridge es de uso general.

Memoria recomendada

Los requisitos de memoria varían considerablemente dependiendo de la escala de un cluster Hadoop. La memoria es un factor crítico para maestros nodos Hadoop porque los servidores NameNode activos y en espera dependen en gran medida de RAM para gestionar HDFS. Como tal, el uso de la memoria de corrección de errores (ECC) para los maestros nodos Hadoop. Por lo general, los nodos maestros necesitan entre 64 GB y 128 GB de memoria RAM.

El requisito de memoria NameNode es una función directa del número de bloques de archivos almacenados en HDFS. Como regla general, la NameNode utiliza más o menos 1 GB de RAM por cada millón de HDFS bloques. (Recuerde que los archivos se dividen en bloques individuales y replicado quedando con tres copias de cada bloque.)

Las demandas de memoria del Administrador de recursos, HMaster, Zookeeper y servidores JournalNode son considerablemente menores que para el servidor NameNode. Sin embargo, es una buena práctica para el tamaño de los nodos maestros de una manera coherente, de modo que son intercambiables en caso de fallo de hardware.

Redes recomendado

Comunicación rápida es vital para los servicios en los nodos principales, por lo que recomendamos el uso de un par de conexiones 10 GbE en condiciones de servidumbre. Este par enlazado proporciona redundancia, sino que también duplica el rendimiento de 20GbE. Para grupos más pequeños (por ejemplo, menos de 50 nodos) que podría salirse con la suya utilizando conectores 1 GbE.

Sobre el autor

Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad

A menudo en la infancia de Hadoop, una gran cantidad de debate se centra en la representación de la NameNode de un único punto de fallo. Hadoop, en general, ha tenido siempre una arquitectura robusta y el fracaso-tolerante, con la excepción de…

Consideraciones bastidor Hadoop

Un principio básico de Hadoop está escalando con nodos esclavos adicionales para satisfacer la creciente de datos en el almacenamiento y demandas -Procesamiento. En un modelo a escala de salida, debe considerar cuidadosamente el diseño clúster…

Hadoop sistema de archivos distribuido (HDFS) para proyectos de grandes volúmenes de datos

El sistema de archivos distribuido Hadoop es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande. HDFS no es el destino final de los archivos. Más bien, es un servicio de datos que ofrece un conjunto…

¿Cómo elegir una arquitectura de clúster Hadoop

Hadoop está diseñado para ser desplegado en un gran grupo de ordenadores conectados en red, con nodos maestros (que albergan los servicios que controlan el almacenamiento de Hadoop y procesamiento) y nodos esclavos (donde se almacena o trata los…

¿Cómo poner en marcha una aplicación de MapReduce en hadoop 1

Para ver cómo el JobTracker y TaskTracker trabajan juntos para llevar a cabo una acción de MapReduce, echar un vistazo a la ejecución de una aplicación de MapReduce. La figura muestra las interacciones, y la siguiente lista de pasos establece el…

Entrada divide en MapReduce de Hadoop

La forma HDFS se ha establecido, se descompone muy grandes archivos en bloques grandes (por ejemplo, la medición de 128 MB), y almacena tres copias de estos bloques en diferentes nodos del clúster. HDFS no tiene conciencia del contenido de estos…

Lleve un registro de los bloques de datos con NameNode en HDFS

El NameNode actúa como la libreta de direcciones para Hadoop Distributed File System (HDFS), ya que no sólo sabe que bloquea constituyen archivos individuales, sino también el lugar donde se almacenan cada uno de estos bloques y sus réplicas.…

Administrar los recursos de datos grandes y aplicaciones con hilo hadoop

Planificación de tareas y seguimiento de los grandes datos son partes integrales de Hadoop MapReduce y se pueden usar para administrar los recursos y aplicaciones. Las primeras versiones de Hadoop apoyaron un sistema de seguimiento de trabajos y…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Nodos esclavos en el sistema de archivos distribuidos Hadoop (HDFS)

En un clúster Hadoop, cada nodo de datos (también conocido como un nodo esclavo) Se ejecuta un proceso de fondo llamado DataNode. Este proceso de fondo (también conocido como una demonio) Comprueba los trozos de datos que el sistema almacena en…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Nodos Máster en racimos de Hadoop