Google dremel y hadoop

Para la mayoría de la gente, el término Dremel trae a la mente una herramienta de bajo par motor a mano de alta velocidad que funciona bien para una variedad de puestos de trabajo alrededor de la casa. Pero ¿sabía usted que Google creó un Dremel? En lugar de producir otro herramienta mecánica portátil, sin embargo, Google eligió una herramienta de software rápido destinada al análisis interactivo de datos grandes.

Al igual que con otras tecnologías de Google que inspiraron partes del ecosistema Hadoop, como MapReduce, Google File System (HDFS), y BigTable (ver HBase), Google desarrolló Dremel para uso interno y luego publicó un artículo que describe el propósito y el diseño de la tecnología . (En otras palabras, Dremel no es algo que se puede descargar y utilizar en el clúster Hadoop.)

Google utiliza Dremel para una variedad de puestos de trabajo, incluyendo el análisis de los documentos rastreado en la Web, detección de spam de correo electrónico, a través de informes de errores de aplicaciones y más. Servicio BigQuery de Google utiliza realmente Dremel.

Google ha diseñado la tecnología MapReduce para el procesamiento por lotes sobre conjuntos masivos de datos. Como evolucionaron sus necesidades, también lo hizo su tecnología, y Google decidió crear Dremel para mejorar el rendimiento de las consultas interactivas contra conjuntos de datos grandes.

El enfoque MapReduce proporciona tolerancia a la escalabilidad y la consulta de culpa, pero es fundamentalmente un sistema basado en lotes, por lo que los tiempos de respuesta para las consultas más pequeñas (consultas que implican sólo una pequeña parte de un conjunto de datos completo, por ejemplo) a menudo no son lo que esperan los usuarios.

Así que Google ha desarrollado una tecnología de ejecución de consultas diseñado para consultas interactivas, que se ejecuta en los servidores intermedios en la parte superior del sistema de archivos de Google (GFS). (Recuerde, GFS fue la inspiración para Apache HDFS, que es el sistema de archivos de Hadoop.)

Similar a colmena, Dremel utiliza un lenguaje similar a SQL (familiar para la mayoría de los programadores) y emplea un diseño de datos columnar. Dremel ofrece una respuesta rápida y consulta interactiva, preservando la tolerancia de la escalabilidad y la falla se encuentra en Apache Hive. En el libro blanco Dremel, Google explica cómo puede realizar consultas de agregación en cuestión de segundos sobre tablas con un billón de filas - no está mal en absoluto.

Así que Google tiene su tecnología de Dremel, que utiliza internamente, pero luego están todas las tecnologías " inspirado en " Dremel (algo así como todos aquellos perfumes " inspirado en " Drakkar Noir).