Bases de datos de procesamiento masivamente paralelo

Para proporcionar una mejor comprensión de las alternativas SQL-en-Hadoop Hive a, podría ser útil revisar una cartilla en el procesamiento paralelo masivo (MPP) bases de datos primero.

Apache Hive es en capas en la parte superior del sistema de Hadoop Distributed File (HDFS) y el sistema de MapReduce y presenta una interfaz de programación-SQL como a sus datos (HiveQL, para ser exactos). Esta combinación de tecnologías de Hadoop desplegado en un clúster es similar a las bases de datos del MPP que han existido por un tiempo en el mercado de TI.

Bases de datos MPP suelen proporcionar una interfaz SQL y un sistema de gestión de bases de datos relacionales (RDBMS) que se ejecuta en un clúster de servidores conectados en red entre sí por una interconexión de alta velocidad. La figura muestra los componentes de un RDBMS que normalmente se incluye en las soluciones de SQL-en-Hadoop.

imagen0.jpg

Sistemas de datos relacionales han evolucionado considerablemente a un punto donde han surgido las mejores prácticas entre la mayoría de las ofertas en términos de una infraestructura óptima ejecución de la consulta. La figura muestra esto en términos de flujo de una consulta como se procesa por un motor de RDBMS.

En primer lugar, el texto de la consulta se analiza y entiende. Entonces el árbol de sintaxis de la consulta se compila en un plan de ejecución de lógica, que a su vez está optimizada para formar el plan de ejecución física final, que luego es ejecutado por el tiempo de ejecución. Para muchas de las soluciones de SQL-en-Hadoop, que se está viendo componentes similares están desplegando en Hadoop.

Racimos MPP se refieren generalmente como teniendo una arquitectura compartida-Nada, ya que cada sistema tiene su propia CPU, memoria y disco. Sin embargo, a través del software de base de datos y de alta velocidad interconecta, las funciones del sistema en su conjunto y pueden escalar como nuevos servidores se agregan al clúster. El sistema en su conjunto se sintoniza de forma explícita para proporcionar una respuesta rápida y consulta interactiva.

Bases de datos MPP son a menudo más flexible, escalable y rentable que los RDBMS tradicionales, alojadas en un servidor multiprocesador grande.




» » » » Bases de datos de procesamiento masivamente paralelo