Nodos Máster en racimos de Hadoop
Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los puntos únicos de fallo, por lo que ver dos interruptores y tres nodos principales.
NameNode: Gestiona el almacenamiento HDFS. Para garantizar una alta disponibilidad, usted tiene a la vez un NameNode activo y un NameNode espera. Cada ejecuta en su propio nodo maestro, dedicado.
Nodo Checkpoint (o nodo de copia de seguridad): Proporciona puntos de control servicios para la NameNode. Esto implica la lectura de registro de ediciones del NameNode de cambios en los archivos en HDFS (nuevos, eliminados y archivos adjuntos) desde el último punto de control, y su aplicación a archivo maestro del NameNode que asigna los archivos a los bloques de datos.
Además, el nodo de copia de seguridad mantiene una copia del espacio de nombres del sistema de archivos en la memoria y lo mantiene en sintonía con el estado de la NameNode. Para las implementaciones de alta disponibilidad, no utilice un nodo de punto de control o nodo de copia de seguridad - utilizar un NameNode espera en su lugar. Además de ser una espera activa para la NameNode, Standby NameNode mantiene los servicios de puntos de control y mantiene una copia actualizada del espacio de nombres del sistema de archivos en la memoria.
JournalNode: Recibe las modificaciones del registro de edición que indican cambios en los archivos en HDFS del NameNode. Al menos tres servicios JournalNode (y siempre es un número impar) debe estar corriendo en un grupo, y son lo suficientemente ligero que puede colocarse con otros servicios en los nodos principales.
Administrador de recursos: Supervisa la programación de tareas y gestión de los recursos del cluster Hadoop aplicación. Este servicio es el corazón de hilo.
JobTracker: Para Hadoop 1 servidores, se ocupa de la gestión de recursos de clúster y la programación. Con HILO, el JobTracker es obsoleto y no se utiliza. Un número de implementaciones de Hadoop aún no han migrado a Hadoop 2 y el hilo.
HMaster: Supervisa los servidores región HBase y se ocupa de todos los cambios en los metadatos. Para garantizar una alta disponibilidad, asegúrese de usar una segunda instancia HMaster. El servicio HMaster es lo suficientemente ligero para colocarse con otros servicios en los nodos principales. En Hadoop 1, instancias del servicio HMaster ejecutan en los nodos principales. En Hadoop 2, con Hoya (HBase a los hilados), instancias HMaster ejecutan en contenedores en nodos esclavos.
Zookeeper: Coordina componentes distribuidos y proporciona mecanismos para mantenerlos sincronizados. Zookeeper se utiliza para detectar el fracaso de la NameNode y elegir un nuevo NameNode. También se utiliza con HBase para gestionar los estados de la HMaster y los RegionServers.
Al igual que con la JournalNode, necesita al menos tres casos de nodos Zookeeper (y siempre un número impar), y que es lo suficientemente ligero para colocarse con otros servicios en los nodos principales.
Aquí, usted tiene tres nodos principales (con el mismo hardware), donde los servicios clave NameNode activo, en espera NameNode y Administrador de recursos cada uno tiene su propio servidor. Hay servicios JournalNode y Zookeeper que se ejecutan en cada servidor, así, pero estos son ligeros y no serán una fuente de contención de recursos con los servicios NameNode y Administrador de recursos.
Los principios son los mismos para Hadoop 1, donde se necesita un nodo maestro dedicado para la NameNode, NameNode secundaria, y los servicios JobTracker.
Si va a utilizar HBase con Hoya en Hadoop 2, usted no necesita cualquier servicio adicional. Para Hadoop 1 despliegues utilizando HBase, echa un vistazo a la siguiente figura para el despliegue de los servicios de maestros nodos del cluster Hadoop.
Hay dos diferencias al comparar estos servidores maestros a los servidores maestros Hadoop 1 sin apoyo HBase: aquí se necesita dos servicios HMaster (uno para coordinar HBase, y uno para actuar como un modo de espera) y servicios Zookeeper en los tres nodos maestros para manejar la conmutación por error .
Si tiene intención de utilizar el clúster Hadoop 1 sólo para HBase, se puede hacer sin el servicio JobTracker, ya HBase no depende de la infraestructura Hadoop MapReduce 1.
Cuando la gente habla de hardware para Hadoop, por lo general, hacen hincapié en el uso de mercancía - los componentes de los baratos. Porque tienes que desembolsar por sólo unos pocos nodos maestros (por lo general, tres o cuatro), no está afectada por la multiplicación de los costes si, por ejemplo, usted decide utilizar unidades de disco duro caros.
Tenga en cuenta que, sin nodos principales, que no queda racimo Hadoop. Nodos Máster tienen una función de misión crítica, ya pesar de que lo que necesita la redundancia, se deben diseñar con alta disponibilidad y flexibilidad en mente.
Almacenamiento recomendada
Para nodos maestros Hadoop, sin importar el número de nodos esclavos o usos de la agrupación, las características de almacenamiento son consistentes. Utilice cuatro unidades de 900GB SAS, junto con un controlador de disco duro RAID configurado para RAID 1 + 0. Unidades SAS son más caros que los discos SATA, y tienen menor capacidad de almacenamiento, pero son más rápido y mucho más confiable.
Implementación de las unidades SAS como un array RAID asegura que los servicios de gestión de Hadoop tienen una tienda redundante para sus datos de misión crítica. Esto le da el almacenamiento lo suficientemente estable, rápido y redundante para apoyar la gestión de su clúster Hadoop.
Procesadores recomendados
En el momento de escribir estas líneas, la mayoría de las arquitecturas de referencia recomiendan el uso de placas base con dos sockets de CPU, cada uno con seis u ocho núcleos. La arquitectura Intel Ivy Bridge es de uso general.
Memoria recomendada
Los requisitos de memoria varían considerablemente dependiendo de la escala de un cluster Hadoop. La memoria es un factor crítico para maestros nodos Hadoop porque los servidores NameNode activos y en espera dependen en gran medida de RAM para gestionar HDFS. Como tal, el uso de la memoria de corrección de errores (ECC) para los maestros nodos Hadoop. Por lo general, los nodos maestros necesitan entre 64 GB y 128 GB de memoria RAM.
El requisito de memoria NameNode es una función directa del número de bloques de archivos almacenados en HDFS. Como regla general, la NameNode utiliza más o menos 1 GB de RAM por cada millón de HDFS bloques. (Recuerde que los archivos se dividen en bloques individuales y replicado quedando con tres copias de cada bloque.)
Las demandas de memoria del Administrador de recursos, HMaster, Zookeeper y servidores JournalNode son considerablemente menores que para el servidor NameNode. Sin embargo, es una buena práctica para el tamaño de los nodos maestros de una manera coherente, de modo que son intercambiables en caso de fallo de hardware.
Redes recomendado
Comunicación rápida es vital para los servicios en los nodos principales, por lo que recomendamos el uso de un par de conexiones 10 GbE en condiciones de servidumbre. Este par enlazado proporciona redundancia, sino que también duplica el rendimiento de 20GbE. Para grupos más pequeños (por ejemplo, menos de 50 nodos) que podría salirse con la suya utilizando conectores 1 GbE.