Almacenamiento de datos estructurados y procesamiento de Hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características fundamentales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y procesamiento de datos de propósito general diseñada para escalar a miles de nodos de cómputo y petabytes de datos.

No hay modelo de datos en los datos de Hadoop misma- es simplemente almacenada en el cluster Hadoop como archivos RAW. Como tal, los componentes básicos de sí Hadoop no tienen capacidades especiales para la catalogación, indización, o consultar datos estructurados.

La belleza de un sistema de almacenamiento de datos de propósito general es que puede ser extendido para fines muy específicos. La comunidad Hadoop ha hecho exactamente eso con una serie de proyectos de Apache - proyectos que, en conjunto, conforman el Hadoop ecosistema. Cuando se trata de almacenamiento de datos estructurados y procesamiento, los proyectos descritos en esta lista son los más comúnmente utilizados:

  • Hive: Un marco de almacenamiento de datos de Hadoop. Datos de catálogos Colmena en archivos estructurados y proporciona una interfaz de consulta con el lenguaje SQL-como nombre HiveQL.

  • HBase: LA repartido base de datos - una base de datos NoSQL que se basa en varios equipos y no en una sola CPU, en otras palabras - que se construye en la parte superior de Hadoop.

  • Giraph: Un motor de procesamiento gráfico para los datos almacenados en Hadoop.

Muchos otros proyectos de Apache soportan diferentes aspectos de análisis de datos estructurados, y algunos proyectos se centran en una serie de marcos e interfaces.

Al determinar la arquitectura óptima para sus necesidades de análisis, asegúrese de evaluar los atributos y capacidades de los sistemas que está considerando. La tabla compara los almacenes de datos basados ​​en Hadoop (Colmena, Giraph y HBase) con RDBMS tradicional.

Una comparación de almacenamiento basado en Hadoop y RDBMS
CriteriosColmenaGiraphHBaseRDBMS
Datos modificableSin
Distribución de datosArchivos primas almacenadas en HDFS- Colmena apoya proprietaryrow orientada o formatos de columna-orientado.A, distribuida, SortedMap multidimensional persistente escasaFila orientada o columna orientada
Tipos de datosTipos de datos Bytes- se interpretan en consulta.Compatibilidad de tipos de datos Rich
HardwareHadoop agrupado x86 mercancía Servidores- cinco o más es typicalbecause la tecnología de almacenamiento subyacente es HDFS, que por defaultrequires tres réplicas.Sistemas multiprocesador lo general grandes y escalables
Alta disponibilidadSi- integrado en la arquitectura HadoopSí, si el hardware y el RDBMS están configurados correctamente
ÍndicesSinTeclas fila única o una mesa especial que se necesite
Lenguaje de consultaHiveQLGiraph APIComandos API HBase (,,,,,, HiveQLSQL
EsquemaEsquema definido como archivos están catalogados con la Colmena DataDefinition Language (DDL)Esquema de lecturaLa variabilidad en el esquema entre filasEsquema de la carga
RendimientoMillones de lecturas y escrituras por segundoMiles de lecturas y escrituras por segundo
TransaccionesNingunoProporciona apoyo ACID en una sola filaProporciona varias filas y tablas cruzadas soporte transaccional withfull ÁCIDO cumplimiento propiedad
Velocidad de TransacciónVelocidad modesta para queries- interactivo rápido para tablescans completosRápido para interactivo queries- rápido para escaneos completos de tablaRápido para queries- interactiva más lento para escaneos completos de tabla
El tamaño típicoEl rango va de terabytes a petabytes (de entre cientos de miles de millones millionsto de filas)De gigabytes a terabytes (de cientos de miles tomillions de filas)



» » » » Almacenamiento de datos estructurados y procesamiento de Hadoop