Hadoop como destino de los datos de archivo

El costo económico de almacenamiento para Hadoop, más la posibilidad de consultar los datos de Hadoop con SQL hace Hadoop el principal destino para los datos de archivo. Este caso de uso tiene un bajo impacto en su organización, porque se puede empezar a construir su habilidad Hadoop establecido en datos que no está almacenada en los sistemas de rendimiento de misión crítica.

Lo que es más, usted no tiene que trabajar duro para llegar a los datos. (Como los datos archivados normalmente se almacena en sistemas que tienen poco uso, es más fácil de conseguir por lo que los datos que está en " el centro de atención " en sistemas de misión crítica de rendimiento, como los almacenes de datos.) Si ya está utilizando Hadoop como una zona de aterrizaje, usted tiene la fundación para su archivo! Sólo tiene que mantener lo que desea archivar y borrar lo que no lo hace.

Si se piensa en la zona de aterrizaje del Hadoop, el archivo consultable, que se muestra en la figura, se extiende el valor de Hadoop y empieza a integrar piezas que probable que ya existen en su empresa. Es un gran ejemplo de la búsqueda de economías de escala y de costos oportunidades de asimilación a cabo utilizando Hadoop.

Aquí, el componente de archivo conecta la zona de aterrizaje y el almacén de datos. Los datos que se están archivadas se origina en el almacén y luego se almacena en el clúster Hadoop, que también es Provisioning la zona de aterrizaje. En resumen, se puede utilizar el mismo clúster Hadoop para archivar datos y actuar como su zona de aterrizaje.

La tecnología clave Hadoop que se utiliza para realizar el archivado es Sqoop, que puede mover los datos a archivar desde el almacén de datos en Hadoop. Usted tendrá que considerar qué forma desea que los datos a tomar en el clúster Hadoop. En general, los archivos de la colmena comprimido son una buena opción.

Puede, por supuesto, a transformar los datos de las estructuras para almacenamiento en alguna otra forma (por ejemplo, un formulario normalizado para reducir la redundancia), pero esto generalmente no es una buena idea. Mantener los datos en la misma estructura que lo que hay en el almacén, será mucho más fácil de realizar una consulta conjunto de datos a través de los datos archivados en Hadoop y la de datos activa que está en el almacén.

El concepto de consultar tanto los conjuntos de datos activos y archivados nos lleva a otra consideración: la cantidad de datos en caso de que archivar? En realidad, hay dos opciones comunes: se añade todo archivo como datos y cambiado en el almacén de datos o sólo archivar los datos que considere a ser frío.

Archivar todo tiene la ventaja de que le permite emitir fácilmente consultas de una única interfaz a través de todo el conjunto de datos - sin un archivo completo, tendrá que encontrar una solución de búsqueda federada en la que tendría que el sindicato de los resultados del archivo y el almacén de datos activo.

Pero el inconveniente es que la actualización periódica de los datos calientes de su almacén de datos podría causar dolores de cabeza para el archivo basado en Hadoop. Esto se debe a los cambios en los datos en filas y columnas individuales requerirían eliminación por mayor y re-catalogación de conjuntos de datos existentes.

Ahora que los datos de archivo se almacena en su zona de aterrizaje basado en Hadoop (asumiendo que usted está utilizando una opción como los archivos Hive comprimido antes mencionados), usted puede consultarlo. Aquí es donde el SQL en soluciones Hadoop puede llegar a ser interesante.

Un excelente ejemplo de lo que es posible es que las herramientas de análisis (a la derecha en la figura) para ejecutar directamente los informes o análisis sobre los datos archivados almacenados en Hadoop. No se trata de sustituir el depósito de datos - después de todo, Hadoop no sería capaz de igualar las características de rendimiento del almacén para los centenares de apoyo o más usuarios simultáneos haciendo preguntas complejas.

El punto aquí es que usted puede utilizar las herramientas de informes en contra de Hadoop para experimentar y llegar a nuevas preguntas que responder en un almacén dedicado o mart.

Al iniciar su primer proyecto basado en Hadoop para el archivo de datos de almacén, no se rompen los procesos actuales hasta que se haya probado plenamente en su nueva solución Hadoop. En otras palabras, si su estrategia de almacenamiento actual es de archivar en cinta, mantener ese proceso en el lugar, y de doble archivar los datos en Hadoop y cinta hasta que haya probado plenamente el escenario (que normalmente incluiría la restauración de los datos del almacén en caso de un fallo de almacén).

Aunque usted está manteniendo (a corto plazo), dos depósitos de archivos, usted tendrá una infraestructura sólida en su lugar y la prueba antes de retirar un proceso probado y verdadero. Este proceso puede garantizar que permanezca empleado - con su empleador actual.

Este caso de uso es simple porque no hay cambio en el almacén existente. El objetivo de negocio sigue siendo la misma: almacenamiento y licencias más baratos los costos por la migración de los datos utilizados raramente a un archivo. La diferencia en este caso es que la tecnología detrás del archivo es Hadoop lugar de almacenamiento fuera de línea, como la cinta.

Además, varios vendedores de archivos han comenzado a incorporar Hadoop en sus soluciones (por ejemplo, permitiendo que sus ficheros de archivo propietarios para residen en HDFS), por lo que esperan capacidades en esta área para ampliar pronto.

A medida que desarrolla habilidades de Hadoop (como el intercambio de datos entre Hadoop y bases de datos relacionales y consulta de datos en HDFS) se puede utilizar para hacer frente a los problemas más grandes, tales como proyectos de análisis, lo que podría proporcionar un valor adicional para la inversión Hadoop de su organización.

Sobre el autor

Hadoop como un motor de pre-procesamiento de datos

Uno de los primeros casos de uso para Hadoop en la empresa era como un motor de transformación programática utilizada para los datos preprocess con destino a un almacén de datos. Esencialmente, este caso de uso aprovecha la potencia del…

Hadoop como un archivo consultable de datos de almacén de frío

Una multitud de estudios muestran que la mayoría de los datos en un almacén de datos empresariales rara vez se preguntó. Proveedores de bases de datos han respondido a estas observaciones mediante la implementación de sus propios métodos para…

Hadoop distribuido sistema de archivos (HDFS) federación

La solución a la expansión de grupos de Hadoop indefinidamente es federar el NameNode. Antes de Hadoop 2 entró en escena, racimos de Hadoop tuvieron que vivir con el hecho de que NameNode coloca límites al grado en que podrían escalar. Pocos…

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

Ibm grande sql y hadoop

IBM tiene una larga historia de trabajo con SQL y la tecnología de base de datos. De acuerdo con esta historia, la solución de IBM para SQL en Hadoop aprovecha los componentes de sus tecnologías de bases de datos relacionales que son portado para…

Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.Cerdo tiene dos modos de ejecutar secuencias de comandos:Modo local: Todos…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Bases de datos de procesamiento masivamente paralelo

Para proporcionar una mejor comprensión de las alternativas SQL-en-Hadoop Hive a, podría ser útil revisar una cartilla en el procesamiento paralelo masivo (MPP) bases de datos primero.Apache Hive es en capas en la parte superior del sistema de…

Hawq Pivotal y hadoop

En 2010, EMC y VMware, los líderes del mercado en la entrega de TI como un servicio a través de la computación en nube, adquirieron Greenplum Corporation, las personas que habían llevado con éxito el producto Greenplum MPP Data Warehouse (DW)…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

La importancia de SQL para hadoop

Hay razones de peso que SQL ha demostrado ser resistente. La industria de TI ha tenido 40 años de experiencia con SQL, ya que fue desarrollado por IBM a principios de 1970. Con el aumento de la adopción de las bases de datos relacionales en la…

Almacenamiento de datos estructurados y procesamiento de Hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características fundamentales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Hadoop como destino de los datos de archivo