Análisis de datos grandes y el almacén de datos

Va a encontrar valor en traer las capacidades del almacén de datos y el entorno de datos grande juntos. Es necesario crear un entorno híbrido donde los datos grandes pueden trabajar de la mano con el almacén de datos.

En primer lugar, es importante reconocer que el almacén de datos, ya que está diseñado hoy no va a cambiar en el corto plazo.

Por lo tanto, es más pragmático para utilizar el almacén de datos por lo que ha sido diseñado para hacer - proporcionar una versión bien examinada, de la verdad sobre un tema que la empresa quiere analizar. El almacén puede incluir información acerca de la línea de una empresa en particular de productos, sus clientes, sus proveedores, y los detalles del valor de las transacciones de un año.

La información manejada en el almacén de datos o un mercado de datos departamental se ha construido con mucho cuidado para que los metadatos es exacta. Con el crecimiento de la nueva información basada en la web, es práctico ya menudo necesario analizar esta cantidad masiva de datos en el contexto de los datos históricos. Aquí es donde el modelo híbrido entra.

Ciertos aspectos de casarse con el almacén de datos con los datos grandes pueden ser relativamente fácil. Por ejemplo, muchas de las fuentes de datos grandes provienen de fuentes que incluyen sus propios metadatos bien diseñados. Sitios de comercio electrónico complejas incluyen elementos de datos bien definidos. Por lo tanto, al realizar el análisis entre el almacén y la fuente de datos grande, la organización de gestión de información está trabajando con dos conjuntos de datos con modelos de metadatos cuidadosamente diseñados que tienen que ser racionalizado.

Por supuesto, en algunas situaciones, las fuentes de información carecen de metadatos explícita. Antes de que un analista puede combinar los datos de transacciones históricas con los grandes datos menos estructurado, el trabajo tiene que ser hecho. Por lo general, el análisis inicial de petabytes de datos revelará patrones interesantes que pueden ayudar a predecir los cambios sutiles en soluciones de negocio o potenciales para el diagnóstico de un paciente.

El análisis inicial se puede completar el aprovechamiento de herramientas como MapReduce con el marco del sistema de archivos distribuido Hadoop. En este punto, usted puede comenzar a entender si es capaz de ayudar a evaluar el problema está abordando.

En el proceso de análisis, es igual de importante para eliminar datos innecesarios, ya que es para identificar los datos relevantes para el contexto empresarial. Cuando esta fase se ha completado, los datos restantes necesita ser transformado de modo que las definiciones de metadatos son precisos. De esta manera, cuando el gran datos se combinan con los datos tradicionales, históricos del almacén, los resultados serán precisos y significativos.

El gran eje central de integración de datos

Este proceso requiere una estrategia de integración de datos bien definido. Si bien la integración de datos es un elemento crítico de la gestión de grandes volúmenes de datos, es igualmente importante al crear un análisis híbrido con el almacén de datos. De hecho, el proceso de extracción de datos y transformándola en un entorno híbrido es muy similar a cómo se ejecuta este proceso dentro de un almacén de datos tradicional.

En el almacén de datos, los datos se extrae de los sistemas de código tradicionales como los sistemas de CRM o ERP. Es crítico que los elementos de estos diversos sistemas pueden emparejar correctamente.

Repensar la extracción, transformación y carga de los almacenes de datos

En el almacén de datos, a menudo se encuentra una combinación de tablas relacionales de bases de datos, archivos planos, y las fuentes no relacionales. Un almacén de datos bien construido será con arquitectura de modo que los datos se convierten en un formato común, lo que permite consultas para ser procesados ​​precisa y consistente. Los archivos extraídos deben transformarse para adaptarse a las reglas de negocio y procesos de la materia que el almacén de datos está diseñado para analizar.

En otras palabras, los datos tienen que ser extraídos de las fuentes de datos grandes de modo que estas fuentes pueden trabajar con seguridad juntos y producir resultados significativos. Además, las fuentes tienen que ser transformado de modo que sean útiles en el análisis de la relación entre los datos históricos y los datos más dinámica y en tiempo real que proviene de fuentes de datos grandes.

Cargando información en el modelo de datos grande será diferente de lo que se puede esperar en un almacén de datos tradicional. Con los almacenes de datos, después de los datos ha sido codificado, que nunca cambia. Un almacén de datos típico proporcionará el negocio con una instantánea de los datos basados ​​en la necesidad de analizar un problema de negocio en particular que requiere un seguimiento, tales como el inventario o ventas.

La estructura distribuida de grandes volúmenes de datos a menudo conducen a organizaciones primeros datos de carga en una serie de nodos y luego realizar la extracción y transformación. Al crear un híbrido del almacén de datos tradicional y el entorno de datos grande, la naturaleza distribuida del entorno de datos grande puede cambiar dramáticamente la capacidad de las organizaciones para analizar grandes volúmenes de datos en el contexto de la empresa.




» » » » Análisis de datos grandes y el almacén de datos