Cloudera impala y hadoop

Cloudera es un software y servicios proveedor líder Hadoop en el mercado de grandes datos. Al igual que Apache Taladro, tecnología Impala de Cloudera busca mejorar el tiempo de respuesta de la consulta interactiva para los usuarios de Hadoop. Apache Hive ha proporcionado un mecanismo de consulta familiar y de gran alcance para los usuarios de Hadoop, pero los tiempos de respuesta de consulta a menudo son inaceptables debido a la dependencia de la colmena en MapReduce. La respuesta de Cloudera a este problema es Impala.

Cloudera ha desarrollado un motor de consulta MPP, escrito en C ++, para reemplazar la capa de MapReduce apalancado por Apache Hive. A diferencia de Dremel y Taladro, Cloudera decidió que un motor de C ++ MPP nativa - en lugar de un motor de Java - fue la respuesta para las consultas de Hadoop rápidas e interactivas.

Tenga en cuenta que Impala utiliza HiveQL como interfaz de programación, y los motores de Impala Consulta Exec se co-ubicada con nodos de datos HDFS, en consonancia con el enfoque de Hadoop de datos de co-localizar con las tareas de procesamiento. Impala también puede utilizar HBase como almacén de datos. En este sentido, Impala es una extensión de Hadoop, proporcionando una alternativa muy alto rendimiento para el modelo de colmena-on-top-of-MapReduce.

Cloudera y Twitter lideraron el desarrollo del nuevo formato de archivo de Hadoop, que se puede utilizar con Impala y está disponible como código abierto en GitHub. El formato de archivo parqué proporciona un medio columnar robusta para almacenar datos en Hadoop. Es compatible con la compresión y codificación altamente eficiente, y es eficaz para almacenar estructuras de datos anidadas.

Usted puede encontrar la tecnología Impala de Cloudera, que también fue inspirado por Dremel invento de Google.