Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos

La organización de los servicios de datos y herramientas, la capa 3 de la pila de datos grande, capturar, validar, y montar varios elementos de datos grandes en colecciones contextualmente relevantes. Dado que los datos de grande es masiva, las técnicas han evolucionado para procesar los datos de manera eficiente y sin problemas. MapReduce es una técnica muy utilizada. Baste decir aquí que muchos de estos servicios de datos de la organización son los motores de MapReduce, específicamente diseñado para optimizar la organización de los flujos de datos grandes.

La organización de servicios de datos son, en realidad, un ecosistema de herramientas y tecnologías que se pueden utilizar para recoger y reunir datos en preparación para su posterior procesamiento. Como tal, las herramientas deben proporcionar la integración, la traducción, la normalización, y la escala. Tecnologías en esta capa son los siguientes:

  • Un sistema de archivos distribuido: Necesario para dar cabida a la descomposición de los flujos de datos y para proporcionar capacidad de la báscula y almacenamiento

  • Servicios de serialización: Necesario para el almacenamiento de datos persistente y llamadas a procedimientos remotos multilenguaje (RPC)

  • Servicios de coordinación: Necesario para la construcción de aplicaciones distribuidas (bloqueo y así sucesivamente)

  • Extracción, transformación y carga (ETL): Necesario para la carga y conversión de datos estructurados y no estructurados en Hadoop

  • Los servicios de flujo de trabajo: Necesario para la programación de los trabajos y proporcionar una estructura para la sincronización de los elementos del proceso a través de las capas




» » » » Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos