Almacene grandes datos con HBase
HBase es una no relacional (columnar) base de datos distribuida, que utiliza HDFS como su almacén de persistencia para proyectos de grandes datos. Es el modelo de Google BigTable y es capaz de albergar mesas muy grandes (miles de millones de columnas / filas), ya que se acoda sobre clusters Hadoop de hardware de los productos básicos.
HBase ofrece, en tiempo real aleatorio acceso de lectura / escritura de datos grandes. HBase es altamente configurable, que proporciona una gran flexibilidad para hacer frente a enormes cantidades de datos de manera eficiente. Ahora echa un vistazo a cómo HBase puede ayudar a resolver sus desafíos de datos grandes.
HBase es una base de datos en columnas, por lo que todos los datos se almacenan en tablas con filas y columnas similares a los sistemas de gestión de bases de datos relacionales (RDBMS). La intersección de una fila y una columna se denomina celda. Una diferencia importante entre las mesas HBase y tablas RDBMS está versiones.
Cada valor de la celda incluye una " la versión " atribuir, que no es más que una marca de tiempo de identificación única de la célula. Versiones seguimiento de los cambios en la célula y permite recuperar cualquier versión de los contenidos en caso de ser necesario. HBase almacena los datos en celdas en orden decreciente (con la marca de tiempo), por lo que una lectura siempre encontrará primero los valores más recientes.
Columnas en HBase pertenecen a una familia de columna. El nombre de la familia columna se usa como un prefijo para identificar los miembros de su familia. Por ejemplo, Frutas: Manzana y frutas: plátano son miembros de la frutas familia columna. Implementaciones HBase están sintonizados a nivel familiar columna, por lo que es importante ser consciente de cómo se va a acceder a los datos y lo grande que se puede esperar de las columnas que sean.
Las filas de mesas HBase también tienen una clave asociada con ellos. La estructura de la tecla es muy flexible. Puede ser un valor calculado, una cadena, o incluso otra estructura de datos. La clave se utiliza para controlar el acceso a las celdas de la fila, y se almacenan en orden del valor menor a mayor valor.
Todas estas características juntas conforman el esquema. El esquema está definido y creado antes de los datos se pueden almacenar. Aun así, las tablas pueden ser alterados y las nuevas familias de columna se pueden añadir después de la base de datos está en marcha y funcionando. Esta extensibilidad es muy útil cuando se trata de grandes volúmenes de datos, ya que no siempre se sabe acerca de la variedad de sus flujos de datos.