Hadoop y colmena

Para hacer el cuento largo, Colmena ofrece Hadoop con un puente hacia el mundo RDBMS y proporciona un dialecto SQL conocida como Hive Query Language (HiveQL), que se puede utilizar para realizar tareas tipo SQL. Esa es la gran noticia, pero hay más en Hive de lo que parece, como se suele decir, o más aplicaciones de esta nueva tecnología que se pueden presentar en un discurso de ascensor estándar.

Por ejemplo, Colmena también hace posible el concepto conocido como almacén de datos empresariales (EDW) de aumento, un caso que lleva utilización para Hadoop, donde los almacenes de datos se configuran como RDBMS construido específicamente para el análisis y presentación de datos.

Ahora, algunos expertos argumentan que Hadoop (con Colmena, HBase, Sqoop, y sus compinches surtidos) puede reemplazar el EDW. Sin embargo, Hadoop es un gran adición a la empresa y que puede aumentar y complementar EDWs existentes. Colmena, HBase y Sqoop permiten EDW aumento.

Estrechamente relacionado con la tecnología RDBMS / EDW es de extracción, transformación, y la tecnología de carga (ETL). Para comprender lo que ETL no, es útil saber que, en muchos casos de uso, los datos no pueden ser cargados inmediatamente en la base de datos relacional - debe primero ser extraída de su fuente nativa, transformado en un formato adecuado, y luego cargado en el RDBMS o EDW.

Por ejemplo, una empresa o una organización pueden extraer datos de texto no estructurados de un foro de Internet, transformar los datos en un formato estructurado que a la vez valioso y útil, y luego cargar los datos estructurados en su EDW.

Se puede ver que la colmena es una herramienta ETL poderosa por derecho propio, junto con el actor principal en este reino: Apache Pig. Una vez más, los usuarios pueden tratar de establecer Colmena y cerdo como el nuevas herramientas ETL para el centro de datos. (Que lo intenten.)

Al igual que con el debate sobre EDW frente Hadoop, estas tecnologías Apache Hadoop no son directas reemplazos para disfrutar de herramientas ETL existente sino que son nuevas y potentes herramientas ETL para ser utilizados cuando sea apropiado.

Por último, pero no menos importante, Apache Hive le da poderosas herramientas de análisis, todo ello dentro del marco de HiveQL. Estas herramientas deben verse y sentirse muy familiar para los profesionales de TI que entienden cómo utilizar SQL.