Capa 4 de la pila de datos grande: almacenes de datos analíticos

El almacén de datos, la capa 4 de la pila de datos grande, y su compañero de la despensa de datos, han sido durante mucho tiempo las técnicas primarias que las organizaciones utilizan para optimizar los datos para ayudar a los tomadores de decisiones. Típicamente, almacenes de datos y marts contienen datos normalizados se reunieron a partir de una variedad de fuentes y se montan para facilitar el análisis de la empresa.

Almacenes y mercados de datos simplifican la creación de informes y la visualización de los elementos de datos dispares. Se crean generalmente a partir de bases de datos relacionales, bases de datos multidimensionales, archivos planos y bases de datos de objetos - esencialmente cualquier arquitectura de almacenamiento. En un ambiente tradicional, donde el rendimiento puede no ser la más alta prioridad, la elección de la tecnología subyacente es impulsado por los requisitos para el análisis, generación de informes y visualización de los datos de la empresa.

A medida que la organización de los datos y su disposición para el análisis son clave, las implementaciones de almacenes mayoría de los datos se mantienen actualizados a través de procesamiento por lotes. El problema es que los almacenes de datos batch-cargado y mercados de datos pueden ser insuficientes para muchas aplicaciones de datos grandes. El estrés impuesto por flujos de datos de alta velocidad probablemente requerirá un enfoque más en tiempo real a los almacenes de datos grandes.

Esto no significa que usted no va a crear y alimentar un almacén de datos analítica o un mercado de datos con los procesos por lotes. Más bien, puede llegar a tener múltiples almacenes de datos o data marts, y el rendimiento y la escala va a reflejar los requisitos de tiempo de los analistas y tomadores de decisiones.

Debido a que muchos almacenes de datos y data marts se componen de datos recogidos de diversas fuentes dentro de una empresa, los costos asociados con la limpieza y la normalización de los datos también deben abordarse. Con grandes datos, a encontrar algunas diferencias clave:

  • Flujos de datos tradicionales (de transacciones, aplicaciones, etc.) pueden producir una gran cantidad de datos dispares.

  • También existen docenas de nuevas fuentes de datos, cada uno de ellos que necesitan cierto grado de manipulación antes de que pueda ser oportuna y útil para el negocio.

  • También necesitarán fuentes de contenido para ser limpiados, y éstos pueden requerir diferentes técnicas que puede utilizar con datos estructurados.

Históricamente, el contenido de los almacenes de datos y data marts se organizaron y se entregan a los líderes empresariales a cargo de la estrategia y la planificación. Con grandes datos, una nueva serie de equipos están aprovechando de datos para la toma de decisiones.

Muchas implementaciones de grandes datos proporcionan capacidades en tiempo real, por lo que las empresas deben ser capaces de entregar el contenido para que las personas con funciones operativas para abordar cuestiones como la atención al cliente, las oportunidades de ventas, y las interrupciones del servicio en tiempo real. De este modo, los datos de gran ayuda a mover la acción de la oficina de nuevo a la oficina principal.

Herramientas y técnicas de análisis existentes serán muy útiles para dar sentido a los datos grandes. Sin embargo, hay una trampa. Los algoritmos que forman parte de estas herramientas tienen que ser capaces de trabajar con grandes cantidades de potencialmente en tiempo real y datos dispares. La infraestructura tendrá que estar en su lugar para apoyar esto.

Y, los vendedores que ofrecen herramientas de análisis también tendrá que asegurarse de que sus algoritmos funcionan a través de implementaciones distribuidas. Debido a estas complejidades, le espera una nueva clase de herramientas para ayudar a dar sentido a los datos grandes.

Hay tres clases de herramientas en esta capa de la arquitectura de referencia. Se pueden utilizar de forma independiente o colectivamente por los tomadores de decisiones para ayudar a dirigir el negocio. Las tres clases de herramientas son los siguientes:

  • Presentación de informes y cuadros de mando: Estas herramientas proporcionan una representación "fácil de usar" de la información de varias fuentes. Aunque uno de los pilares en el mundo de datos tradicional, esta área sigue evolucionando para grandes datos. Algunas de las herramientas que se están utilizando son los tradicionales, que ahora pueden tener acceso a los nuevos tipos de bases de datos NoSQL colectivamente llamados (No Sólo SQL).

  • Visualización: Estas herramientas son el siguiente paso en la evolución de la presentación de informes. La salida tiende a ser altamente interactivo y dinámico en la naturaleza. Otra distinción importante entre los informes y de salida visualizada es la animación. Los usuarios empresariales pueden ver los cambios en los datos que utilizan una variedad de diferentes técnicas de visualización, incluyendo mapas mentales, mapas de calor, infografías y esquemas de conexión. Presentación de informes y visualización se producen al final de la actividad empresarial.

  • Analytics y analítica avanzada: Estas herramientas alcanzan en el almacén de datos y procesar los datos para el consumo humano. Análisis avanzados deben explicar las tendencias o eventos que son transformadora, único, o revolucionaria a la práctica empresarial existente. El análisis predictivo y análisis de sentimiento son buenos ejemplos de esta ciencia.




» » » » Capa 4 de la pila de datos grande: almacenes de datos analíticos