Bases de datos de columna en un entorno de datos grande

Bases de datos de columnas pueden ser muy útiles en su proyecto de datos grande. Bases de datos relacionales son fila orientada, como los datos en cada fila de una tabla se almacena junto. En una columnar, o base de datos orientada a columnas, se almacenan los datos a través de filas. Aunque esto puede parecer una distinción trivial, es la característica subyacente más importante de las bases de datos de columna.

Es muy fácil de añadir columnas, y se puede añadir fila por fila, que ofrece una gran flexibilidad, el rendimiento y la escalabilidad. Cuando usted tiene volumen y variedad de datos, es posible que desee utilizar una base de datos en columnas. Es muy adaptable- simplemente continúa agregando columnas.

Una de las bases de datos de columnas más populares es HBase. Es, también, es un proyecto de la Fundación Apache Software distribuido bajo la licencia Apache Software v2.0. HBase utiliza el sistema de archivos Hadoop MapReduce y el motor para sus necesidades de almacenamiento de datos básicos.

El diseño de HBase se inspira en BigTable de Google. Por lo tanto, las implementaciones de HBase son distribuidos, mapas altamente escalables dispersas, persistentes multidimensionales ordenados. El mapa está indexada por una clave de fila, columna de clave y un timestamp- cada valor en el mapa es una matriz no interpretada de bytes.

Cuando su aplicación requiere de grandes datos, en tiempo real aleatorio acceso de lectura de datos / escritura, HBase es una muy buena solución. A menudo se utiliza para almacenar los resultados para el procesamiento analítico posterior.

Las características importantes de HBase incluyen los siguientes:

  • Consistencia: Aunque no es una " ACID " implementación, HBase ofrece fuertemente consistente de lectura y escritura y no se basa en un modelo coherente con el tiempo. Esto significa que se puede utilizar para los requisitos de alta velocidad, siempre y cuando no se necesita el " características extra " ofrecido por RDBMS como soporte de transacciones completo o columnas escritas.

  • Sharding: Debido a que los datos se distribuyen por el sistema de archivos de apoyo, HBase ofrece transparente, división automática y redistribución de su contenido.

  • Alta disponibilidad: A través de la implementación de servidores región, HBase soporta LAN y WAN de conmutación por error y la recuperación. En el centro, hay un servidor maestro responsable de la supervisión de los servidores de la región y todos los metadatos para el clúster.

  • API de cliente: HBase ofrece acceso mediante programación a través de una API de Java.

  • El apoyo a las operaciones de TI: Los ejecutores pueden exponer rendimiento y otros parámetros a través de un conjunto de páginas web incorporadas.

Implementaciones HBase son los más adecuados para

  • De alto volumen, la recolección de datos incrementales y procesamiento

  • El intercambio de información en tiempo real (por ejemplo, mensajería)

  • Cambiando frecuentes porción de contenido




» » » » Bases de datos de columna en un entorno de datos grande