Hadoop empleado del zoológico de grandes datos
Mayor técnica de Hadoop para hacer frente a grandes desafíos de datos es su capacidad de dividir y conquistar con Zookeeper. Después de que el problema se ha dividido, la conquista se basa en la capacidad de emplear distribuida y técnicas de procesamiento paralelo en el clúster Hadoop.
Para algunos problemas de datos grandes, las herramientas interactivas son incapaces de proporcionar los conocimientos o la puntualidad necesaria para tomar decisiones de negocio. En esos casos, es necesario crear aplicaciones distribuidas para resolver los grandes problemas de datos. Zookeeper es la manera en la coordinación de todos los elementos de estas aplicaciones distribuidas de Hadoop.
Zookeeper como una tecnología es realmente simple, pero sus características son de gran alcance. Podría decirse que sería difícil, si no imposible, para crear aplicaciones flexibles y tolerantes a fallos distribuidos Hadoop sin ella. Algunas de las capacidades de Zookeeper son los siguientes:
Proceso de sincronización: Zookeeper coordina el arranque y la parada de varios nodos del clúster. Esto asegura que todo el procesamiento se produce en el orden previsto. Cuando un grupo de proceso entero es completo, entonces y sólo entonces puede ocurrir posterior procesamiento.
Gestión de la configuración: Zookeeper puede usarse para enviar atributos de configuración a cualquiera o todos los nodos del clúster. Cuando el procesamiento depende de los recursos disponibles en particular que está siendo todos los nodos, Zookeeper asegura la consistencia de las configuraciones.
Auto-electoral: Zookeeper entiende la composición del grupo y puede asignar un " el líder " papel a uno de los nodos. Este líder / maestro se ocupa de todas las solicitudes de clientes en nombre de la agrupación. Si el nodo líder falla, otro líder será elegido a partir de los nodos restantes.
Mensajería fiable: A pesar de que las cargas de trabajo en Zookeeper están débilmente acoplados, usted todavía tiene una necesidad de comunicación entre y entre los nodos del clúster específicas para la aplicación distribuida. Zookeeper ofrece una publicación / suscripción capacidad que permite la creación de una cola. Esta cola garantiza la entrega de mensajes incluso en el caso de un fallo de nodo.
Debido Zookeeper es la gestión de grupos de nodos de servicio a una sola aplicación distribuida, se implementa mejor a través de bastidores. Esto es muy diferente de los requisitos para el propio clúster (dentro de bastidores). La razón de fondo es simple: Zookeeper necesita realizar, ser resistentes, y estar tolerante a errores a un nivel por encima del propio clúster.
Recuerde que un cluster Hadoop ya está tolerante a fallos, por lo que curarse a sí mismo. Zookeeper sólo tiene que preocuparse de su propia tolerancia a fallos.
El ecosistema Hadoop y las distribuciones comerciales soportados son siempre cambiante. Las nuevas herramientas y tecnologías se introducen, las tecnologías existentes se mejoran, y algunas tecnologías son retirados por una (esperemos que mejor) de reemplazo. Esta una de las mayores ventajas del código abierto.
Otra es la adopción de tecnologías de código abierto por parte de empresas comerciales. Estas empresas mejorar los productos, por lo que sea mejor para todos, ofreciendo apoyo y servicios a un costo modesto. Así es como ha evolucionado el ecosistema Hadoop y por qué es una buena opción para ayudar a resolver sus desafíos de datos grandes.