Zookeeper y HBase fiabilidad

Zookeeper es un conjunto distribuido de servidores que colectivamente provee servicios de coordinación y sincronización fiables para aplicaciones en clúster. Es cierto, el nombre " Zookeeper " puede parecer a primera vista una elección extraña, pero cuando usted entiende lo que hace para un clúster HBase, se puede ver la lógica detrás de él. Cuando usted está construyendo y depurar aplicaciones distribuidas “, es un zoológico por ahí, " por lo que debe poner Zookeeper en su equipo.

Racimos HBase pueden ser enormes y coordinar las operaciones de las MasterServers, RegionServers, y los clientes puede ser una tarea desalentadora, pero ahí es donde Zookeeper entra en escena. Al igual que en HBase, cúmulos Zookeeper normalmente se ejecutan en servidores x86 de los productos básicos de bajo costo.

Cada servidor x86 individuo ejecuta un solo proceso de software Zookeeper (en adelante denominado como servidor Zookeeper), con un servidor Zookeeper elegido por el conjunto como el líder y el resto de los servidores son seguidores. Conjuntos Zookeeper se rigen por el principio de un quórum de la mayoría.

Configuraciones con un servidor Zookeeper son compatibles con fines de prueba y desarrollo, pero si quieres un grupo confiable que puede tolerar el fallo del servidor, debe implementar al menos tres servidores Zookeeper para lograr el quórum de la mayoría.

Así, el número de servidores Zookeeper se necesita? Cinco es el mínimo recomendado para uso en producción, pero que realmente no quieren ir con el mínimo indispensable. Cuando usted decide planear su conjunto Zookeeper, siga esta sencilla fórmula: 2F + 1 = N donde F es el número de fallos se puede aceptar en el clúster Zookeeper y N es el número total de servidores Zookeeper debe desplegar.

Cinco se recomienda porque un servidor puede ser cerrado por mantenimiento, pero el cúmulo Zookeeper todavía puede tolerar un fallo del servidor.

Zookeeper ofrece coordinación y sincronización con lo que llama znodes, que se presentan como un árbol de directorios, y se asemejan a los nombres de ruta de archivos que te ve en un sistema de archivos Unix. Znodes hacer almacenar datos, pero no hay mucho que hablar de - en la actualidad menos de 1 MB de forma predeterminada.

La idea aquí es que Zookeeper tiendas znodes en la memoria y que estos znodes basados en memoria proporcionan acceso de cliente rápido para la coordinación, el estado y otras funciones vitales que requieren las aplicaciones distribuidas como HBase. Zookeeper replica znodes todo el conjunto por lo que si los servidores fallan, los datos znode está todavía disponible, siempre y cuando un quórum mayoría de los servidores es todavía en funcionamiento.

Otros principales preocupaciones concepto Zookeeper cómo lee znode (contra escritura) se manejan. Cualquier servidor Zookeeper puede manejar lee de un cliente, incluyendo el líder, pero sólo las cuestiones líder atómico znode escribe - escribe que sea completamente éxito o fracasan por completo.

Cuando llega una petición znode escritura en el nodo líder, el líder transmite la solicitud de escritura a los nodos de seguidor y espera a que la mayoría de los seguidores de reconocer znode escriba completa. Después de la confirmación, el líder emite la propia escritura znode y luego informa el estado de finalización con éxito al cliente.

Znodes proporcionan algunas garantías muy poderosas. Cuando un cliente Zookeeper (tal como un RegionServer HBase) escribe o lee un znode, la operación es atómico. Es ya sea por completo tiene éxito o fracasa por completo - no lee ninguna parcial o escribe.

Ningún otro cliente compitiendo puede causar la operación de lectura o escritura falle. Además, un znode tiene una lista de control de acceso (ACL) asociadas a ella para la seguridad, y es compatible con las versiones, marcas de tiempo y la notificación a los clientes cuando cambia.

Zookeeper replica znodes todo el conjunto por lo que si los servidores fallan, los datos znode está todavía disponible, siempre y cuando un quórum mayoría de los servidores es todavía en funcionamiento. Esto significa que escribe a cualquier znode desde cualquier servidor Zookeeper debe ser propagado en todo el conjunto. El líder Zookeeper gestiona esta operación.

Este enfoque de escritura znode puede causar seguidores a caer detrás del líder por períodos cortos. Zookeeper resuelve este problema potencial al proporcionar un comando de sincronización. Los clientes que no pueden tolerar esta falta temporal de sincronización dentro del clúster Zookeeper pueden decidir emitir un comando de sincronización antes de leer znodes.

Sobre el autor

Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad

A menudo en la infancia de Hadoop, una gran cantidad de debate se centra en la representación de la NameNode de un único punto de fallo. Hadoop, en general, ha tenido siempre una arquitectura robusta y el fracaso-tolerante, con la excepción de…

Hadoop empleado del zoológico de grandes datos

Mayor técnica de Hadoop para hacer frente a grandes desafíos de datos es su capacidad de dividir y conquistar con Zookeeper. Después de que el problema se ha dividido, la conquista se basa en la capacidad de emplear distribuida y técnicas de…

Requisitos de hardware para HBase

HBase es una tecnología poderosa y flexible, pero que acompaña a esta flexibilidad es el requisito para la configuración y puesta a punto adecuada. Es hora de que algunas pautas generales para configurar grupos HBase. Su "kilometraje" puede…

Requisitos previos de ajuste HBase

Cualquier instalación seria HBase requiere un poco de configuración estándar en el clúster y en los nodos individuales. Algunos ejemplos se proporcionan aquí. Primero eche un vistazo a la supervisión y la gestión.Herramientas para supervisar…

Características principales hiveql

La comunidad Apache Hive vibrante y activa continuamente añadirs a una ya extensa conjunto de características, lo que hace que la cobertura exhaustiva aún más difícil. La siguiente lista resume algunas de las características clave HiveQL para…

Gestión de llaves en nosql

Capacidades de lectura rápidas clave-valor tiendas 'se derivan de su uso de teclas bien definidos. Estas teclas son típicamente hash, lo que da un almacén de claves-valor de una forma muy predecible de determinar qué partición (y por lo tanto…

Nodos Máster en racimos de Hadoop

Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los…

Regionservers en HBase

RegionServers son los procesos de software (a menudo llamados demonios) que activan para almacenar y recuperar datos en HBase (Hadoop base de datos). En entornos de producción, cada RegionServer se implementa en su propio nodo de cómputo dedicado.…

Tome HBase para una prueba de funcionamiento

Aquí, usted descubre cómo descargar e implementar HBase en modo autónomo. Es increíblemente fácil de instalar HBase y comenzar a usar la tecnología. Hemos de tener en cuenta que HBase suele desplegar en un clúster de servidores de las…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

El MasterServer HBase

A partir de un análisis de HBase (base de datos Hadoop) arquitectura describiendo RegionServers lugar del MasterServer puede sorprender. El termino RegionServer parecería implicar que depende (y es secundaria a) la MasterServer y que, por lo tanto…

Bases de datos de columna en un entorno de datos grande

Bases de datos de columnas pueden ser muy útiles en su proyecto de datos grande. Bases de datos relacionales son fila orientada, como los datos en cada fila de una tabla se almacena junto. En una columnar, o base de datos orientada a columnas, se…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Zookeeper y HBase fiabilidad