Acceso SQL y colmena apache

Apache Hive es indiscutiblemente la interfaz de consulta de datos más extendida en la comunidad Hadoop. Originalmente, los objetivos de diseño de la colmena no eran para la compatibilidad de SQL completa y de alto rendimiento, pero eran para proporcionar una interfaz fácil, algo familiar para los desarrolladores que necesitan para realizar consultas por lotes contra Hadoop.

Este enfoque más bien fragmentario ya no funciona, por lo que la demanda crece por el apoyo SQL real y un buen rendimiento. Hortonworks respondieron a esta demanda mediante la creación del proyecto Stinger, donde invirtió sus recursos de desarrollo en la mejora de la colmena para ser más rápido, para escalar a un nivel petabyte, y para ser más compatible con los estándares SQL. Este trabajo debía ser entregado en tres fases.

En las fases 1 y 2, que vio una serie de optimizaciones para la forma en que se procesan las consultas, así como apoyo adicional para los datos tradicionales SQL tipos: la adición del formato ORCFile para el procesamiento más eficiente y almacenamiento y la integración con hilo para un mejor rendimiento.

En la Fase 3, las evoluciones verdaderamente significativos tienen lugar, que desacoplar Colmena de MapReduce. En concreto, se trata de la liberación de Apache Tez, que es un modelo de procesamiento alternativo para Hadoop, diseñado para cargas de trabajo interactivas.

Además del proyecto Stinger, Hortonworks está encabezando una ambiciosa iniciativa para permitir la colmena para apoyar la edición de datos en el nivel de fila con el pleno cumplimiento de las propiedades ACID para los sistemas de bases de datos: atomicidad, consistencia, Niveles de aislamiento y durabilidad.




» » » » Acceso SQL y colmena apache