Hadoop empleado del zoológico de grandes datos

Mayor técnica de Hadoop para hacer frente a grandes desafíos de datos es su capacidad de dividir y conquistar con Zookeeper. Después de que el problema se ha dividido, la conquista se basa en la capacidad de emplear distribuida y técnicas de procesamiento paralelo en el clúster Hadoop.

Para algunos problemas de datos grandes, las herramientas interactivas son incapaces de proporcionar los conocimientos o la puntualidad necesaria para tomar decisiones de negocio. En esos casos, es necesario crear aplicaciones distribuidas para resolver los grandes problemas de datos. Zookeeper es la manera en la coordinación de todos los elementos de estas aplicaciones distribuidas de Hadoop.

Zookeeper como una tecnología es realmente simple, pero sus características son de gran alcance. Podría decirse que sería difícil, si no imposible, para crear aplicaciones flexibles y tolerantes a fallos distribuidos Hadoop sin ella. Algunas de las capacidades de Zookeeper son los siguientes:

Proceso de sincronización: Zookeeper coordina el arranque y la parada de varios nodos del clúster. Esto asegura que todo el procesamiento se produce en el orden previsto. Cuando un grupo de proceso entero es completo, entonces y sólo entonces puede ocurrir posterior procesamiento.
Gestión de la configuración: Zookeeper puede usarse para enviar atributos de configuración a cualquiera o todos los nodos del clúster. Cuando el procesamiento depende de los recursos disponibles en particular que está siendo todos los nodos, Zookeeper asegura la consistencia de las configuraciones.
Auto-electoral: Zookeeper entiende la composición del grupo y puede asignar un " el líder " papel a uno de los nodos. Este líder / maestro se ocupa de todas las solicitudes de clientes en nombre de la agrupación. Si el nodo líder falla, otro líder será elegido a partir de los nodos restantes.
Mensajería fiable: A pesar de que las cargas de trabajo en Zookeeper están débilmente acoplados, usted todavía tiene una necesidad de comunicación entre y entre los nodos del clúster específicas para la aplicación distribuida. Zookeeper ofrece una publicación / suscripción capacidad que permite la creación de una cola. Esta cola garantiza la entrega de mensajes incluso en el caso de un fallo de nodo.

Debido Zookeeper es la gestión de grupos de nodos de servicio a una sola aplicación distribuida, se implementa mejor a través de bastidores. Esto es muy diferente de los requisitos para el propio clúster (dentro de bastidores). La razón de fondo es simple: Zookeeper necesita realizar, ser resistentes, y estar tolerante a errores a un nivel por encima del propio clúster.

Recuerde que un cluster Hadoop ya está tolerante a fallos, por lo que curarse a sí mismo. Zookeeper sólo tiene que preocuparse de su propia tolerancia a fallos.

El ecosistema Hadoop y las distribuciones comerciales soportados son siempre cambiante. Las nuevas herramientas y tecnologías se introducen, las tecnologías existentes se mejoran, y algunas tecnologías son retirados por una (esperemos que mejor) de reemplazo. Esta una de las mayores ventajas del código abierto.

Otra es la adopción de tecnologías de código abierto por parte de empresas comerciales. Estas empresas mejorar los productos, por lo que sea mejor para todos, ofreciendo apoyo y servicios a un costo modesto. Así es como ha evolucionado el ecosistema Hadoop y por qué es una buena opción para ayudar a resolver sus desafíos de datos grandes.

Sobre el autor

Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad

A menudo en la infancia de Hadoop, una gran cantidad de debate se centra en la representación de la NameNode de un único punto de fallo. Hadoop, en general, ha tenido siempre una arquitectura robusta y el fracaso-tolerante, con la excepción de…

¿Cómo elegir una arquitectura de clúster Hadoop

Hadoop está diseñado para ser desplegado en un gran grupo de ordenadores conectados en red, con nodos maestros (que albergan los servicios que controlan el almacenamiento de Hadoop y procesamiento) y nodos esclavos (donde se almacena o trata los…

Administrar los recursos de datos grandes y aplicaciones con hilo hadoop

Planificación de tareas y seguimiento de los grandes datos son partes integrales de Hadoop MapReduce y se pueden usar para administrar los recursos y aplicaciones. Las primeras versiones de Hadoop apoyaron un sistema de seguimiento de trabajos y…

Nodos Máster en racimos de Hadoop

Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los…

Racimos de Redes y Hadoop

Como con cualquier sistema distribuido, redes puede hacer o deshacer un cluster Hadoop: No " ir barato ". Una gran parte de la charla tiene lugar entre los nodos principales y nodos esclavos en un clúster Hadoop que es esencial para mantener el…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

El MasterServer HBase

A partir de un análisis de HBase (base de datos Hadoop) arquitectura describiendo RegionServers lugar del MasterServer puede sorprender. El termino RegionServer parecería implicar que depende (y es secundaria a) la MasterServer y que, por lo tanto…

Maestro aplicación de hilado en hadoop

A diferencia de otros componentes HILO (otro negociador de recursos aún), ningún componente en Hadoop 1 asigna directamente al Maestro de aplicaciones. En esencia, este es un trabajo que el JobTracker hizo para cada aplicación, pero la…

Administrador de recursos de Hilo

El componente central de hilo (Sin embargo, otro negociador de recursos) es el Administrador de recursos, que regula todos los recursos de procesamiento de datos en el cluster Hadoop. En pocas palabras, el Administrador de recursos es un programador…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Hadoop empleado del zoológico de grandes datos