Grandes datos de mina con la colmena

Hive es una capa de datos de depósito orientado a lotes construido sobre los elementos básicos de Hadoop (HDFS y MapReduce) y es muy útil en grandes volúmenes de datos. Proporciona a los usuarios que saben de SQL con una implementación sencilla-SQL Lite llamada HiveQL sin sacrificar el acceso a través de creadores de mapas y reductores. Con Colmena, puede obtener lo mejor de ambos mundos: el acceso SQL similar a los datos estructurados y análisis de grandes datos sofisticado con MapReduce.

A diferencia de la mayoría de los almacenes de datos, Colmena no está diseñado para respuestas rápidas a las consultas. De hecho, las consultas pueden tardar varios minutos o incluso horas, dependiendo de la complejidad. Como resultado, la colmena es la mejor opción para el análisis de minería de datos y más profundas que no requieren comportamientos en tiempo real. Porque se basa en el fundamento Hadoop, es muy extensible, escalable y flexible, algo que el almacén de datos promedio no es.

Hive utiliza tres mecanismos para la organización de los datos:

  • Mesas: Colmena tablas son las mismas que las tablas de RDBMS que consisten en filas y columnas. Debido Colmena se acoda en la Hadoop HDFS, mesas se asignan a los directorios del sistema de archivos. Además, Colmena soporta tablas almacenadas en otros sistemas de archivos nativos.

  • Particiones: Una mesa Hive puede soportar una o más particiones. Estas particiones se asignan a los subdirectorios en el sistema de archivos subyacente y representan la distribución de los datos a lo largo de la mesa. Por ejemplo, si una tabla se llama automóviles, con un valor clave de 12345 y un valor de fabricante Ford, la ruta de acceso a la partición sería / hivewh / autos / kv = 12.345 / Ford.

  • Cucharas: A su vez, los datos se pueden dividir en cubos. Cubos se almacenan como archivos en el directorio de la partición del sistema de archivos subyacente. Los cubos se basan en el hash de una columna en la tabla. En el ejemplo anterior, podría tener un cubo llamado Atención, que contiene todos los atributos de un Ford Focus.

Metadatos Colmena se almacena externamente en el ". MetaStore " El MetaStore es una base de datos relacional que contiene las descripciones detalladas del esquema Colmena, incluyendo tipos de columna, los propietarios, los datos clave y valor, estadísticas de tabla, y así sucesivamente. El MetaStore es capaz de sincronizar los datos del catálogo con otros servicios de metadatos en el ecosistema Hadoop.

Hive soporta un lenguaje SQL, llamado HiveQL. HiveQL apoya muchas de las primitivas SQL, como seleccionar, ensamblar, agregada, la unión de todo, y así sucesivamente. También es compatible con consultas multimesa y las inserciones mediante el intercambio de los datos de entrada en una sola sentencia HiveQL. HiveQL puede ser extendido para soportar la agregación definida por el usuario, la transformación columna, y secuencias de comandos MapReduce embebidos.




» » » » Grandes datos de mina con la colmena