Hadoop como destino de los datos de archivo
El costo económico de almacenamiento para Hadoop, más la posibilidad de consultar los datos de Hadoop con SQL hace Hadoop el principal destino para los datos de archivo. Este caso de uso tiene un bajo impacto en su organización, porque se puede empezar a construir su habilidad Hadoop establecido en datos que no está almacenada en los sistemas de rendimiento de misión crítica.
Lo que es más, usted no tiene que trabajar duro para llegar a los datos. (Como los datos archivados normalmente se almacena en sistemas que tienen poco uso, es más fácil de conseguir por lo que los datos que está en " el centro de atención " en sistemas de misión crítica de rendimiento, como los almacenes de datos.) Si ya está utilizando Hadoop como una zona de aterrizaje, usted tiene la fundación para su archivo! Sólo tiene que mantener lo que desea archivar y borrar lo que no lo hace.
Si se piensa en la zona de aterrizaje del Hadoop, el archivo consultable, que se muestra en la figura, se extiende el valor de Hadoop y empieza a integrar piezas que probable que ya existen en su empresa. Es un gran ejemplo de la búsqueda de economías de escala y de costos oportunidades de asimilación a cabo utilizando Hadoop.
Aquí, el componente de archivo conecta la zona de aterrizaje y el almacén de datos. Los datos que se están archivadas se origina en el almacén y luego se almacena en el clúster Hadoop, que también es Provisioning la zona de aterrizaje. En resumen, se puede utilizar el mismo clúster Hadoop para archivar datos y actuar como su zona de aterrizaje.
La tecnología clave Hadoop que se utiliza para realizar el archivado es Sqoop, que puede mover los datos a archivar desde el almacén de datos en Hadoop. Usted tendrá que considerar qué forma desea que los datos a tomar en el clúster Hadoop. En general, los archivos de la colmena comprimido son una buena opción.
Puede, por supuesto, a transformar los datos de las estructuras para almacenamiento en alguna otra forma (por ejemplo, un formulario normalizado para reducir la redundancia), pero esto generalmente no es una buena idea. Mantener los datos en la misma estructura que lo que hay en el almacén, será mucho más fácil de realizar una consulta conjunto de datos a través de los datos archivados en Hadoop y la de datos activa que está en el almacén.
El concepto de consultar tanto los conjuntos de datos activos y archivados nos lleva a otra consideración: la cantidad de datos en caso de que archivar? En realidad, hay dos opciones comunes: se añade todo archivo como datos y cambiado en el almacén de datos o sólo archivar los datos que considere a ser frío.
Archivar todo tiene la ventaja de que le permite emitir fácilmente consultas de una única interfaz a través de todo el conjunto de datos - sin un archivo completo, tendrá que encontrar una solución de búsqueda federada en la que tendría que el sindicato de los resultados del archivo y el almacén de datos activo.
Pero el inconveniente es que la actualización periódica de los datos calientes de su almacén de datos podría causar dolores de cabeza para el archivo basado en Hadoop. Esto se debe a los cambios en los datos en filas y columnas individuales requerirían eliminación por mayor y re-catalogación de conjuntos de datos existentes.
Ahora que los datos de archivo se almacena en su zona de aterrizaje basado en Hadoop (asumiendo que usted está utilizando una opción como los archivos Hive comprimido antes mencionados), usted puede consultarlo. Aquí es donde el SQL en soluciones Hadoop puede llegar a ser interesante.
Un excelente ejemplo de lo que es posible es que las herramientas de análisis (a la derecha en la figura) para ejecutar directamente los informes o análisis sobre los datos archivados almacenados en Hadoop. No se trata de sustituir el depósito de datos - después de todo, Hadoop no sería capaz de igualar las características de rendimiento del almacén para los centenares de apoyo o más usuarios simultáneos haciendo preguntas complejas.
El punto aquí es que usted puede utilizar las herramientas de informes en contra de Hadoop para experimentar y llegar a nuevas preguntas que responder en un almacén dedicado o mart.
Al iniciar su primer proyecto basado en Hadoop para el archivo de datos de almacén, no se rompen los procesos actuales hasta que se haya probado plenamente en su nueva solución Hadoop. En otras palabras, si su estrategia de almacenamiento actual es de archivar en cinta, mantener ese proceso en el lugar, y de doble archivar los datos en Hadoop y cinta hasta que haya probado plenamente el escenario (que normalmente incluiría la restauración de los datos del almacén en caso de un fallo de almacén).
Aunque usted está manteniendo (a corto plazo), dos depósitos de archivos, usted tendrá una infraestructura sólida en su lugar y la prueba antes de retirar un proceso probado y verdadero. Este proceso puede garantizar que permanezca empleado - con su empleador actual.
Este caso de uso es simple porque no hay cambio en el almacén existente. El objetivo de negocio sigue siendo la misma: almacenamiento y licencias más baratos los costos por la migración de los datos utilizados raramente a un archivo. La diferencia en este caso es que la tecnología detrás del archivo es Hadoop lugar de almacenamiento fuera de línea, como la cinta.
Además, varios vendedores de archivos han comenzado a incorporar Hadoop en sus soluciones (por ejemplo, permitiendo que sus ficheros de archivo propietarios para residen en HDFS), por lo que esperan capacidades en esta área para ampliar pronto.
A medida que desarrolla habilidades de Hadoop (como el intercambio de datos entre Hadoop y bases de datos relacionales y consulta de datos en HDFS) se puede utilizar para hacer frente a los problemas más grandes, tales como proyectos de análisis, lo que podría proporcionar un valor adicional para la inversión Hadoop de su organización.