Hadoop como un archivo consultable de datos de almacén de frío

Una multitud de estudios muestran que la mayoría de los datos en un almacén de datos empresariales rara vez se preguntó. Proveedores de bases de datos han respondido a estas observaciones mediante la implementación de sus propios métodos para la clasificación de los datos que obtiene colocado donde.

Un método ordena el universo de datos en las denominaciones de caliente, caliente o frío, donde caliente datos (a veces llamados activo datos) se utiliza a menudo, caliente los datos se utiliza de vez en tiempo y frío datos rara vez se utiliza. La solución propuesta por muchos vendedores es para almacenar los datos fríos en los discos más lentos dentro de los recintos de almacenamiento de datos o para crear estrategias de caché inteligente para mantener calientes los datos en memoria, entre otros.

El problema con este enfoque es que a pesar de que se utiliza almacenamiento más lenta, sigue siendo caro para almacenar datos fríos, rara vez se utilizan en un almacén. Los costos de aquí se deriva de hardware y licencias de software. Al mismo tiempo, los datos de frío y en estado latente es a menudo ya está archivada en cinta.

Este modelo tradicional de datos archivado se rompe cuando desea consultar todos los datos fríos de una manera rentable y relativamente eficiente - sin tener que solicitar cintas viejas, en otras palabras.

Si nos fijamos en las características de costo y operacionales de Hadoop, de hecho parece que se va a convertir en la nueva cinta de copia de seguridad. Hadoop es económico en gran parte porque los sistemas Hadoop están diseñados para utilizar un grado inferior de hardware que lo que normalmente desplegado en los sistemas de almacenamiento de datos. Otro ahorro significativo de costes es la concesión de licencias de software.

Licencias de distribución de Hadoop comerciales requieren una fracción del costo de las licencias de software de almacenamiento de datos relacionales, que son conocidos por ser caro. Desde una perspectiva operativa, Hadoop está diseñado para escalar fácilmente simplemente añadiendo nodos esclavos adicionales a un clúster existente. Y a medida que se agregan nodos esclavos y los conjuntos de datos crecen en volumen, los marcos de procesamiento de datos de Hadoop permiten a sus aplicaciones para manejar sin problemas la mayor carga de trabajo.

Hadoop representa una forma sencilla, flexible, y de bajo costo para empujar procesamiento a través de literalmente miles de servidores.

Con su arquitectura escalable y de bajo costo, Hadoop parecería ser una opción perfecta para el archivo de datos de almacén. . . a excepción de un asunto menor: La mayor parte del mundo se ejecuta en SQL y SQL por sí solo no juega bien con Hadoop.

Claro, el movimiento NoSQL más Hadoop ambiente está vivo y bien, pero la mayoría de los usuarios de energía ahora utilizan SQL a través de, conjuntos de herramientas comunes off-the-shelf que generan consultas SQL bajo el capó - productos tales como Tableau, Microsoft Excel, e IBM Cognos BI.

Es cierto que el ecosistema Hadoop Hive incluye, pero Colmena admite sólo un subconjunto de SQL, y aunque el rendimiento está mejorando (junto con el soporte de SQL), no es tan rápido en responder a las preguntas más pequeños como los sistemas relacionales son. Recientemente, ha habido importantes avances en torno al acceso de SQL para Hadoop, que ha allanado el camino para Hadoop para convertirse en el nuevo destino para los archivos de almacenamiento de datos en línea.

Dependiendo del proveedor de Hadoop, SQL (o tipo SQL) API se están haciendo disponibles para que las herramientas de informes y análisis más comunes off-the-shelf pueden emitir sin problemas de SQL que se ejecuta en los datos almacenados en Hadoop. Por ejemplo, IBM tiene su Gran API SQL, Cloudera tiene Impala, y la propia colmena, a través de la iniciativa Hortonworks Stinger, se está convirtiendo cada vez más compatible con SQL.

Aunque existen diversos puntos de vista (algunos tienen por objeto mejorar Hive- algunos, para extender Hive- y otros, para proporcionar una alternativa), todas estas soluciones intentan abordar dos cuestiones: MapReduce es una mala solución para ejecutar consultas más pequeños, y el acceso SQL es - por ahora - la clave para permitir que los trabajadores de TI a utilizar sus habilidades de SQL existentes para obtener el valor de los datos almacenados en Hadoop.




» » » » Hadoop como un archivo consultable de datos de almacén de frío