Acceso SQL y colmena apache

Apache Hive es indiscutiblemente la interfaz de consulta de datos más extendida en la comunidad Hadoop. Originalmente, los objetivos de diseño de la colmena no eran para la compatibilidad de SQL completa y de alto rendimiento, pero eran para proporcionar una interfaz fácil, algo familiar para los desarrolladores que necesitan para realizar consultas por lotes contra Hadoop.

Este enfoque más bien fragmentario ya no funciona, por lo que la demanda crece por el apoyo SQL real y un buen rendimiento. Hortonworks respondieron a esta demanda mediante la creación del proyecto Stinger, donde invirtió sus recursos de desarrollo en la mejora de la colmena para ser más rápido, para escalar a un nivel petabyte, y para ser más compatible con los estándares SQL. Este trabajo debía ser entregado en tres fases.

En las fases 1 y 2, que vio una serie de optimizaciones para la forma en que se procesan las consultas, así como apoyo adicional para los datos tradicionales SQL tipos: la adición del formato ORCFile para el procesamiento más eficiente y almacenamiento y la integración con hilo para un mejor rendimiento.

En la Fase 3, las evoluciones verdaderamente significativos tienen lugar, que desacoplar Colmena de MapReduce. En concreto, se trata de la liberación de Apache Tez, que es un modelo de procesamiento alternativo para Hadoop, diseñado para cargas de trabajo interactivas.

Además del proyecto Stinger, Hortonworks está encabezando una ambiciosa iniciativa para permitir la colmena para apoyar la edición de datos en el nivel de fila con el pleno cumplimiento de las propiedades ACID para los sistemas de bases de datos: atomicidad, consistencia, Niveles de aislamiento y durabilidad.

Sobre el autor

Hadoop y colmena

Para hacer el cuento largo, Colmena ofrece Hadoop con un puente hacia el mundo RDBMS y proporciona un dialecto SQL conocida como Hive Query Language (HiveQL), que se puede utilizar para realizar tareas tipo SQL. Esa es la gran noticia, pero hay más…

Hadoop como un archivo consultable de datos de almacén de frío

Una multitud de estudios muestran que la mayoría de los datos en un almacén de datos empresariales rara vez se preguntó. Proveedores de bases de datos han respondido a estas observaciones mediante la implementación de sus propios métodos para…

Integración Hadoop con r

En un principio, los grandes datos y R no eran amigos naturales. R programación requiere que todos los objetos pueden cargar en la memoria principal de una sola máquina. Las limitaciones de esta arquitectura se dieron cuenta rápidamente cuando…

¿Cómo empezar a trabajar con la colmena apache

No hay mejor manera de ver lo que es lo que al instalar el software de la colmena y darle una prueba de funcionamiento. Al igual que con otras tecnologías en el ecosistema Hadoop, no se necesita mucho tiempo para empezar.Si usted tiene el tiempo y…

Importación de datos en colmena con Sqoop

Aquí, se importa la totalidad de la base de datos de la orden de servicio directamente desde MySQL en la colmena y ejecuta una consulta HiveQL en contra de la base de datos recién importados de Hadoop. La siguiente lista muestra cómo se…

Características principales hiveql

La comunidad Apache Hive vibrante y activa continuamente añadirs a una ya extensa conjunto de características, lo que hace que la cobertura exhaustiva aún más difícil. La siguiente lista resume algunas de las características clave HiveQL para…

Bases de datos de procesamiento masivamente paralelo

Para proporcionar una mejor comprensión de las alternativas SQL-en-Hadoop Hive a, podría ser útil revisar una cartilla en el procesamiento paralelo masivo (MPP) bases de datos primero.Apache Hive es en capas en la parte superior del sistema de…

Hawq Pivotal y hadoop

En 2010, EMC y VMware, los líderes del mercado en la entrega de TI como un servicio a través de la computación en nube, adquirieron Greenplum Corporation, las personas que habían llevado con éxito el producto Greenplum MPP Data Warehouse (DW)…

Aplicaciones en tiempo real y streaming en hadoop

El flujo del proceso del hilado parece un montón, como un marco para la ejecución por lotes. Usted podría preguntarse, "? ¿Qué pasó con esta idea de la flexibilidad para los diferentes modos de aplicaciones " Bueno, el único marco de…

Ardilla cliente como colmena con el controlador JDBC

SQuirreL SQL es una herramienta de código abierto que actúa como cliente de la colmena. Si deseas descargar este cliente SQL universal a partir de la página web de SourceForge. Proporciona una interfaz de usuario para la colmena y simplifica las…

Almacenamiento de datos estructurados y procesamiento de Hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características fundamentales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Acceso SQL y colmena apache