Almacene grandes datos con HBase

HBase es una no relacional (columnar) base de datos distribuida, que utiliza HDFS como su almacén de persistencia para proyectos de grandes datos. Es el modelo de Google BigTable y es capaz de albergar mesas muy grandes (miles de millones de columnas / filas), ya que se acoda sobre clusters Hadoop de hardware de los productos básicos.

HBase ofrece, en tiempo real aleatorio acceso de lectura / escritura de datos grandes. HBase es altamente configurable, que proporciona una gran flexibilidad para hacer frente a enormes cantidades de datos de manera eficiente. Ahora echa un vistazo a cómo HBase puede ayudar a resolver sus desafíos de datos grandes.

HBase es una base de datos en columnas, por lo que todos los datos se almacenan en tablas con filas y columnas similares a los sistemas de gestión de bases de datos relacionales (RDBMS). La intersección de una fila y una columna se denomina celda. Una diferencia importante entre las mesas HBase y tablas RDBMS está versiones.

Cada valor de la celda incluye una " la versión " atribuir, que no es más que una marca de tiempo de identificación única de la célula. Versiones seguimiento de los cambios en la célula y permite recuperar cualquier versión de los contenidos en caso de ser necesario. HBase almacena los datos en celdas en orden decreciente (con la marca de tiempo), por lo que una lectura siempre encontrará primero los valores más recientes.

Columnas en HBase pertenecen a una familia de columna. El nombre de la familia columna se usa como un prefijo para identificar los miembros de su familia. Por ejemplo, Frutas: Manzana y frutas: plátano son miembros de la frutas familia columna. Implementaciones HBase están sintonizados a nivel familiar columna, por lo que es importante ser consciente de cómo se va a acceder a los datos y lo grande que se puede esperar de las columnas que sean.

Las filas de mesas HBase también tienen una clave asociada con ellos. La estructura de la tecla es muy flexible. Puede ser un valor calculado, una cadena, o incluso otra estructura de datos. La clave se utiliza para controlar el acceso a las celdas de la fila, y se almacenan en orden del valor menor a mayor valor.

Todas estas características juntas conforman el esquema. El esquema está definido y creado antes de los datos se pueden almacenar. Aun así, las tablas pueden ser alterados y las nuevas familias de columna se pueden añadir después de la base de datos está en marcha y funcionando. Esta extensibilidad es muy útil cuando se trata de grandes volúmenes de datos, ya que no siempre se sabe acerca de la variedad de sus flujos de datos.

Sobre el autor

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

HBase y el mundo rdbms

HBase y la tecnología de base de datos relacional (como Oracle, DB2, MySQL y por nombrar sólo algunos) realmente no se pueden comparar del todo bien. A pesar del cliché , es realmente un caso de comparar manzanas con naranjas. HBase es una NoSQL…

Importación de datos en HBase con Sqoop

Sqoop se puede utilizar para transformar un esquema de base de datos relacional en un esquema HBase. Por supuesto, el objetivo principal aquí es demostrar cómo Sqoop puede importar datos de un RDBMS o almacén de datos directamente en HBase, pero…

Pares de valores clave en el modelo de datos HBase

El modelo de datos HBase lógica es simple pero elegante, y proporciona un mecanismo de almacenamiento de datos natural para todo tipo de datos - conjuntos de datos grandes, especialmente estructurados. Todas las partes del modelo de datos convergen…

Regiones en HBase

RegionServers son una cosa, pero también hay que echar un vistazo a cómo funcionan las distintas regiones. En HBase, una mesa es a la vez la propagación a través de una serie de RegionServers además de estar constituida por regiones…

Regionservers en HBase

RegionServers son los procesos de software (a menudo llamados demonios) que activan para almacenar y recuperar datos en HBase (Hadoop base de datos). En entornos de producción, cada RegionServer se implementa en su propio nodo de cómputo dedicado.…

Claves de fila en el modelo de datos HBase

Almacenes de datos HBase constan de una o más tablas, que están indexados por claves de fila. Los datos se almacenan en filas con columnas y filas puede tener múltiples versiones. Por defecto, el control de versiones de filas de datos se…

El almacenamiento de datos en bigtables

Un Bigtable tiene mesas al igual que un RDBMS hace, pero a diferencia de un RDBMS, unas mesas BigTable generalmente no tienen relaciones con otras tablas. En cambio, los datos complejo se agrupa en una sola tabla.Una mesa en un Bigtable consiste en…

Almacenamiento de datos estructurados y procesamiento de Hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características fundamentales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

Los atributos de HBase

HBase (Hadoop base de datos) es una implementación Java de BigTable de Google. Google define como un BigTable " escasa, distribuida, persistente mapa Ordenado multidimensional ". Es toda una definición concisa, pero también estará de acuerdo que…

Bases de datos de columna en un entorno de datos grande

Bases de datos de columnas pueden ser muy útiles en su proyecto de datos grande. Bases de datos relacionales son fila orientada, como los datos en cada fila de una tabla se almacena junto. En una columnar, o base de datos orientada a columnas, se…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Almacene grandes datos con HBase