La agrupación en nosql

Bases de datos NoSQL son muy adecuados para grandes bases de datos. Clones BigTable como HBase no son una excepción. Es probable que desee utilizar varios servidores de las materias primas de bajo costo en un solo grupo en lugar de una máquina muy potente. Esto es porque usted puede obtener un mejor rendimiento general por dólar mediante el uso de varios servidores de las materias primas, en lugar de un servidor potente sola mucho más costoso.

Además de ser capaz de escalar rápidamente, servidores de las materias primas de bajo costo también puede hacer que su servicio de base de datos más resistentes y por lo tanto ayudar a evitar los fallos de hardware. Esto es porque usted tiene otros servidores para hacerse cargo del servicio, si la placa base del único servidor falla. Este no es el caso con un único servidor grande.

La figura muestra una configuración HBase altamente disponible con un ejemplo de datos divididos entre los servidores.

imagen0.jpg

El diagrama muestra dos nodos (HRegionServers) en una configuración de alta disponibilidad, actuando cada uno como una copia de seguridad para el otro.

En muchas configuraciones de producción, es posible que desee al menos tres nodos de alta disponibilidad para asegurar dos fallas en el servidor cercanos en el tiempo entre sí se pueden manejar. Esto no es tan raro como se podría pensar! Consejos varía según Bigtable- por ejemplo, HBase recomienda cinco nodos como un mínimo para un clúster:

  • Cada servidor de la región maneja su propio juego de llaves.

    El diseño de una estrategia de # 8208-asignación de clave de fila es importante porque dicta cómo la carga se distribuye en todo el clúster.

  • | Cada región mantiene su propio registro de escritura y en el # 8208-tienda de la memoria.

    En HBase, todos los datos se escriben en una tienda en el # 8208-memoria, y más tarde esta tienda se vacía en el disco. En el disco, estas tiendas se llaman almacenar archivos.

    HBase interpreta almacenar archivos como archivos individuales, pero en realidad, están distribuidos en trozos a través de un sistema de archivos distribuido Hadoop (HDFS). Esto proporciona una alta ingesta y velocidad de recuperación porque todas las grandes operaciones de E / S se propagan a través de muchas máquinas.

Para maximizar la disponibilidad de los datos, de forma predeterminada, Hadoop mantiene tres copias de cada archivo de datos. Instalaciones grandes tienen

  • Una copia primaria

  • Una réplica en el mismo rack

  • Otra réplica en un bastidor diferente

Antes de Hadoop 2.0, Namenodes no se podía hacer de alta disponibilidad. Estos mantienen una lista de todos los servidores activos en el clúster. Eran, por tanto, un único punto de fallo. Desde Hadoop 2.0, este límite ya no existe.