¿Cómo elegir una arquitectura de clúster Hadoop

Hadoop está diseñado para ser desplegado en un gran grupo de ordenadores conectados en red, con nodos maestros (que albergan los servicios que controlan el almacenamiento de Hadoop y procesamiento) y nodos esclavos (donde se almacena o trata los datos). Puede, sin embargo, ejecute Hadoop en un solo equipo, lo cual es una gran manera de aprender los fundamentos de Hadoop mediante la experimentación en un espacio controlado.

Conteúdo

Modo pseudo-distribuida (un solo nodo)
Modo totalmente distribuida (un conjunto de nodos)

Hadoop tiene dos modos: el modo de implementación de pseudo-distribuida y modalidad completamente distribuida, ambos de los cuales se describen aquí.

Modo Pseudo-distribuida (un solo nodo)

Un despliegue Hadoop de nodo único se conoce como correr en Hadoop pseudo-distribuido modo, en todos los servicios de Hadoop, incluidos los servicios de maestro y esclavo, todos se ejecutan en un único nodo de cómputo. Este tipo de despliegue es útil para probar rápidamente aplicaciones mientras usted los está desarrollando sin tener que preocuparse sobre el uso de los recursos del clúster Hadoop otra persona podría necesitar.

También es una forma cómoda de experimentar con Hadoop, como la mayoría de nosotros no tiene grupos de computadoras a nuestra disposición.

Modo totalmente distribuida (un conjunto de nodos)

Un despliegue Hadoop, donde los servicios de maestro y esclavo Hadoop ejecutan en un clúster de computadoras se está ejecutando en lo que se conoce como modalidad completamente distribuida. Este es un modo apropiado para aglomeraciones productivas y clusters de desarrollo. Otra distinción se puede hacer aquí: un agrupación de desarrollo por lo general tiene un pequeño número de nodos y se utiliza para crear prototipos de las cargas de trabajo que finalmente se ejecutarán en un clúster de producción.

Sobre el autor

Consideraciones bastidor Hadoop

Un principio básico de Hadoop está escalando con nodos esclavos adicionales para satisfacer la creciente de datos en el almacenamiento y demandas -Procesamiento. En un modelo a escala de salida, debe considerar cuidadosamente el diseño clúster…

Hadoop empleado del zoológico de grandes datos

Mayor técnica de Hadoop para hacer frente a grandes desafíos de datos es su capacidad de dividir y conquistar con Zookeeper. Después de que el problema se ha dividido, la conquista se basa en la capacidad de emplear distribuida y técnicas de…

Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.Cerdo tiene dos modos de ejecutar secuencias de comandos:Modo local: Todos…

Administrar los recursos de datos grandes y aplicaciones con hilo hadoop

Planificación de tareas y seguimiento de los grandes datos son partes integrales de Hadoop MapReduce y se pueden usar para administrar los recursos y aplicaciones. Las primeras versiones de Hadoop apoyaron un sistema de seguimiento de trabajos y…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Nodos Máster en racimos de Hadoop

Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los…

Racimos de Redes y Hadoop

Como con cualquier sistema distribuido, redes puede hacer o deshacer un cluster Hadoop: No " ir barato ". Una gran parte de la charla tiene lugar entre los nodos principales y nodos esclavos en un clúster Hadoop que es esencial para mantener el…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

Maestro aplicación de hilado en hadoop

A diferencia de otros componentes HILO (otro negociador de recursos aún), ningún componente en Hadoop 1 asigna directamente al Maestro de aplicaciones. En esencia, este es un trabajo que el JobTracker hizo para cada aplicación, pero la…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » ¿Cómo elegir una arquitectura de clúster Hadoop