La zona de aterrizaje basado en Hadoop
Al intentar descifrar lo que un entorno de análisis podría ser similar en el futuro, que tropieza con el patrón de la zona horaria de destino basada en Hadoop y otra vez. De hecho, ya no es ni siquiera una discusión de futuros orientado porque la zona de aterrizaje se ha convertido en el manera que las empresas a futuro ahora tratan de ahorrar costes de TI y proporcionar una plataforma para el análisis de datos innovador.
Entonces, ¿qué es exactamente la zona de aterrizaje? En el nivel más básico, el zona de aterrizaje no es más que el lugar central donde los datos aterrizarán en su empresa - extracciones semanales de los datos de las bases de datos operacionales, por ejemplo, o de los archivos de registro de generación de sistemas. Hadoop es un repositorio útil en el que a los datos de la tierra, por estas razones:
Se puede manejar todo tipo de datos.
Es fácilmente escalable.
No es caro.
Una vez que la tierra de datos en Hadoop, usted tiene la flexibilidad para consultar, analizar o procesar los datos en una variedad de maneras.
Este diagrama sólo muestra parte de la historia y es de ninguna manera completa. Después de todo, lo que necesita saber cómo los datos se mueven desde la zona de aterrizaje para el almacenamiento de datos, y así sucesivamente.
El punto de partida para la discusión sobre la modernización de un almacén de datos tiene que ser cómo las organizaciones utilizan almacenes de datos y los desafíos que los departamentos de TI se enfrentan con ellos.
En la década de 1980, una vez que las organizaciones se convirtieron en buenos en guardar su información operacional en bases de datos relacionales (transacciones de ventas, por ejemplo, o estados de la cadena de suministro), los líderes empresariales comenzaron a querer informes generados a partir de estos datos relacionales. Las primeras tiendas relacionales fueron las bases de datos operacionales y fue diseñada para el procesamiento de transacciones en línea (OLTP), por lo que los registros podrían ser insertados, actualizados o eliminados lo más rápidamente posible.
Se trata de una arquitectura poco práctico para la presentación de informes y el análisis a gran escala, por lo procesamiento analítico en línea relacional (ROLAP) bases de datos fueron desarrollados para satisfacer esta necesidad. Esto condujo a la evolución de un nuevo tipo de RDBMS conjunto: una almacén de datos, que es una entidad separada y vive junto a los almacenes de datos operativos de una organización.
Esto se reduce al uso de herramientas especialmente diseñadas para una mayor eficiencia: hay tiendas operativas de datos, que están diseñados para procesar de manera eficiente las transacciones y los almacenes de datos, que están diseñados para apoyar el análisis y elaboración de informes repetidos.
Los almacenes de datos están bajo creciente estrés, sin embargo, por las siguientes razones:
El aumento de la demanda para mantener períodos de datos más largas en línea.
La mayor demanda de recursos de procesamiento de transformar los datos para su uso en otros almacenes y mercados de datos.
La mayor demanda de análisis innovadores, que exige a los analistas a plantear preguntas sobre los datos de almacén, en la parte superior de la presentación de informes periódicos que ya se está haciendo. Esto puede incurrir en un procesamiento adicional significativo.
En la figura, se puede ver el almacén de datos se presenta como el principal recurso para los diversos tipos de análisis que aparecen en la parte derecha de la figura. Aquí puede ver también el concepto de una zona de aterrizaje representado, donde Hadoop almacenará datos de una variedad de fuentes de datos entrantes.
Para habilitar una zona de aterrizaje Hadoop, que necesita para asegurarse de que puede escribir datos de las diversas fuentes de datos a HDFS. Para bases de datos relacionales, una buena solución sería utilizar Sqoop.
Pero el aterrizaje de los datos es sólo el comienzo.
Cuando usted se está moviendo datos de muchas fuentes en su zona de aterrizaje, un tema que usted inevitablemente a tener es la calidad de los datos. Es frecuente que las empresas tienen muchas bases de datos operacionales en detalles claves son diferentes, por ejemplo, que un cliente podría ser conocido como " D. deRoos " en una base de datos, y " Dirk deRoos " en otro.
Otro problema radica en la calidad de los sistemas donde hay una fuerte dependencia de la entrada manual de datos, ya sea de clientes o personal - aquí, no es raro encontrar los nombres de pila y apellidos cambió alrededor u otra información errónea en los campos de datos.
Problemas de calidad de datos son un gran problema para los entornos de almacenamiento de datos, y es por eso que una gran cantidad de esfuerzo va en pasos de limpieza y validación como se procesan los datos de otros sistemas, ya que está cargado en la bodega. Todo se reduce a confianza: Si los datos que está haciendo preguntas en contra está sucia, no se puede confiar en las respuestas en sus informes.
Así, mientras que hay un enorme potencial en tener acceso a muchos conjuntos de datos diferentes de diferentes fuentes en su zona de aterrizaje Hadoop, hay que tener en cuenta la calidad de los datos y la cantidad que puede confiar en los datos.