Análisis de datos grandes y el almacén de datos

Va a encontrar valor en traer las capacidades del almacén de datos y el entorno de datos grande juntos. Es necesario crear un entorno híbrido donde los datos grandes pueden trabajar de la mano con el almacén de datos.

Conteúdo

El gran eje central de integración de datos
Repensar la extracción, transformación y carga de los almacenes de datos

En primer lugar, es importante reconocer que el almacén de datos, ya que está diseñado hoy no va a cambiar en el corto plazo.

Por lo tanto, es más pragmático para utilizar el almacén de datos por lo que ha sido diseñado para hacer - proporcionar una versión bien examinada, de la verdad sobre un tema que la empresa quiere analizar. El almacén puede incluir información acerca de la línea de una empresa en particular de productos, sus clientes, sus proveedores, y los detalles del valor de las transacciones de un año.

La información manejada en el almacén de datos o un mercado de datos departamental se ha construido con mucho cuidado para que los metadatos es exacta. Con el crecimiento de la nueva información basada en la web, es práctico ya menudo necesario analizar esta cantidad masiva de datos en el contexto de los datos históricos. Aquí es donde el modelo híbrido entra.

Ciertos aspectos de casarse con el almacén de datos con los datos grandes pueden ser relativamente fácil. Por ejemplo, muchas de las fuentes de datos grandes provienen de fuentes que incluyen sus propios metadatos bien diseñados. Sitios de comercio electrónico complejas incluyen elementos de datos bien definidos. Por lo tanto, al realizar el análisis entre el almacén y la fuente de datos grande, la organización de gestión de información está trabajando con dos conjuntos de datos con modelos de metadatos cuidadosamente diseñados que tienen que ser racionalizado.

Por supuesto, en algunas situaciones, las fuentes de información carecen de metadatos explícita. Antes de que un analista puede combinar los datos de transacciones históricas con los grandes datos menos estructurado, el trabajo tiene que ser hecho. Por lo general, el análisis inicial de petabytes de datos revelará patrones interesantes que pueden ayudar a predecir los cambios sutiles en soluciones de negocio o potenciales para el diagnóstico de un paciente.

El análisis inicial se puede completar el aprovechamiento de herramientas como MapReduce con el marco del sistema de archivos distribuido Hadoop. En este punto, usted puede comenzar a entender si es capaz de ayudar a evaluar el problema está abordando.

En el proceso de análisis, es igual de importante para eliminar datos innecesarios, ya que es para identificar los datos relevantes para el contexto empresarial. Cuando esta fase se ha completado, los datos restantes necesita ser transformado de modo que las definiciones de metadatos son precisos. De esta manera, cuando el gran datos se combinan con los datos tradicionales, históricos del almacén, los resultados serán precisos y significativos.

El gran eje central de integración de datos

Este proceso requiere una estrategia de integración de datos bien definido. Si bien la integración de datos es un elemento crítico de la gestión de grandes volúmenes de datos, es igualmente importante al crear un análisis híbrido con el almacén de datos. De hecho, el proceso de extracción de datos y transformándola en un entorno híbrido es muy similar a cómo se ejecuta este proceso dentro de un almacén de datos tradicional.

En el almacén de datos, los datos se extrae de los sistemas de código tradicionales como los sistemas de CRM o ERP. Es crítico que los elementos de estos diversos sistemas pueden emparejar correctamente.

Repensar la extracción, transformación y carga de los almacenes de datos

En el almacén de datos, a menudo se encuentra una combinación de tablas relacionales de bases de datos, archivos planos, y las fuentes no relacionales. Un almacén de datos bien construido será con arquitectura de modo que los datos se convierten en un formato común, lo que permite consultas para ser procesados precisa y consistente. Los archivos extraídos deben transformarse para adaptarse a las reglas de negocio y procesos de la materia que el almacén de datos está diseñado para analizar.

En otras palabras, los datos tienen que ser extraídos de las fuentes de datos grandes de modo que estas fuentes pueden trabajar con seguridad juntos y producir resultados significativos. Además, las fuentes tienen que ser transformado de modo que sean útiles en el análisis de la relación entre los datos históricos y los datos más dinámica y en tiempo real que proviene de fuentes de datos grandes.

Cargando información en el modelo de datos grande será diferente de lo que se puede esperar en un almacén de datos tradicional. Con los almacenes de datos, después de los datos ha sido codificado, que nunca cambia. Un almacén de datos típico proporcionará el negocio con una instantánea de los datos basados en la necesidad de analizar un problema de negocio en particular que requiere un seguimiento, tales como el inventario o ventas.

La estructura distribuida de grandes volúmenes de datos a menudo conducen a organizaciones primeros datos de carga en una serie de nodos y luego realizar la extracción y transformación. Al crear un híbrido del almacén de datos tradicional y el entorno de datos grande, la naturaleza distribuida del entorno de datos grande puede cambiar dramáticamente la capacidad de las organizaciones para analizar grandes volúmenes de datos en el contexto de la empresa.

Sobre el autor

Fuentes de datos y herramientas de inteligencia de negocios para almacenamiento de datos suprema

Debido a la gran amplitud de temas en un almacén de datos suprema, tiene numerosas fuentes de datos. La buena noticia: Porque muchas de las fuentes son externos a su propio entorno de almacenamiento, usted no es personalmente responsable de toda la…

El almacenamiento de datos: una definición de trabajo

Así que, ¿qué es un almacén de datos? En un sentido literal, se describe correctamente a través de las definiciones específicas de las dos palabras que componen el término:Datos: Datos e información acerca de algoAlmacén: Una ubicación o…

Almacén de datos: fuentes de datos fuente

Un almacén de datos es, por su propia naturaleza, un almacén de datos física distribuida. Distribución de sus activos de información ayuda en el rendimiento y la facilidad de uso a través de sistemas y en toda la empresa. Hacer este nivel de…

El almacenamiento de datos: ¿qué es un activo de datos?

LA almacén de datos es una casa para sus datos de alto valor, o los activos de datos, que se origina en otras aplicaciones corporativas, como la que su empresa utiliza para cumplir con los pedidos de los clientes para sus productos, o alguna fuente…

Cómo determinar el tamaño de su almacén de datos

Un error común que los aficionados al almacén muchos retención de datos es que la única buena data warehouse es un almacén de datos grande -un enorme gran almacén de datos. Muchas personas incluso toman la postura de que a menos que tengan…

Cómo fabricar activos de datos

LA almacén de datos es una casa para sus datos de alto valor, o los activos de datos. La mayoría de las organizaciones a construir un almacén de datos para los activos de datos fabricados de una manera relativamente sencilla, siguiendo estos…

Servicios de middleware: selección de datos y extracciones

El propósito principal de la selección de datos y el servicio es -extracción seleccionar a partir de (encontrar en) una fuente de datos los datos que desea mover en el almacén de datos y después extracto (sacar) que los datos en una forma que…

El almacén de datos suprema

Almacén de datos del estado de la técnica de hoy por lo general se ve como un complicado lujo almacén de datos. El almacén de datos de la mañana, sin embargo - el almacén de datos suprema - se verá muy diferente. Hay pocas empresas que se han…

La evolución de los modelos de despliegue en la era de los grandes datos

Con la llegada de grandes volúmenes de datos, los modelos de implementación para la gestión de datos están cambiando. El almacén de datos tradicional se lleva a cabo normalmente en un solo sistema, grande dentro del centro de datos. Los costes…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Mejores prácticas para la gran integración de datos

Muchas empresas están explorando problemas de datos grandes y dar con algunas soluciones innovadoras. Ahora es el momento de prestar atención a algunos mejores prácticas, o principios básicos, que serán muy útiles a medida que comienza su…

Cómo priorizar gran calidad de los datos

Conseguir la perspectiva correcta sobre calidad de los datos puede ser muy difícil en el mundo de los grandes datos. Con la mayoría de las fuentes de datos grandes, es necesario asumir que se está trabajando con datos que no está limpio. De…

maniqui-es.com » Computadoras y software » Big Data » Ingeniería » Análisis de datos grandes y el almacén de datos