Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos
La organización de los servicios de datos y herramientas, la capa 3 de la pila de datos grande, capturar, validar, y montar varios elementos de datos grandes en colecciones contextualmente relevantes. Dado que los datos de grande es masiva, las técnicas han evolucionado para procesar los datos de manera eficiente y sin problemas. MapReduce es una técnica muy utilizada. Baste decir aquí que muchos de estos servicios de datos de la organización son los motores de MapReduce, específicamente diseñado para optimizar la organización de los flujos de datos grandes.
La organización de servicios de datos son, en realidad, un ecosistema de herramientas y tecnologías que se pueden utilizar para recoger y reunir datos en preparación para su posterior procesamiento. Como tal, las herramientas deben proporcionar la integración, la traducción, la normalización, y la escala. Tecnologías en esta capa son los siguientes:
Un sistema de archivos distribuido: Necesario para dar cabida a la descomposición de los flujos de datos y para proporcionar capacidad de la báscula y almacenamiento
Servicios de serialización: Necesario para el almacenamiento de datos persistente y llamadas a procedimientos remotos multilenguaje (RPC)
Servicios de coordinación: Necesario para la construcción de aplicaciones distribuidas (bloqueo y así sucesivamente)
Extracción, transformación y carga (ETL): Necesario para la carga y conversión de datos estructurados y no estructurados en Hadoop
Los servicios de flujo de trabajo: Necesario para la programación de los trabajos y proporcionar una estructura para la sincronización de los elementos del proceso a través de las capas
Sobre el autor
El ecosistema Hadoop de Apache Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…
Los flujos de trabajo de datos grandes Para entender los flujos de trabajo de datos grandes, usted tiene que entender lo que es un proceso es y cómo se relaciona con el flujo de trabajo en entornos de datos intensivos. Los procesos tienden a ser diseñados como de alto nivel,…
Análisis de datos grandes y el almacén de datos Va a encontrar valor en traer las capacidades del almacén de datos y el entorno de datos grande juntos. Es necesario crear un entorno híbrido donde los datos grandes pueden trabajar de la mano con el almacén de datos.En primer lugar, es…
Identificar los datos que necesita para su big data Hacer un balance de el tipo de datos que está tratando con su proyecto de datos grande. Muchas organizaciones están reconociendo que una gran cantidad de datos generados internamente no se ha utilizado en todo su potencial en el pasado.Mediante el…
Capa 2 de la pila de grandes datos: bases de datos operacionales En el núcleo de cualquier entorno de datos grande, y la capa 2 de la pila de datos grande, son los motores de bases de datos que contienen las colecciones de elementos de datos relevantes para su negocio. Estos motores tienen que ser rápido,…
Middleware para el almacenamiento de datos Middleware es un software informático que conecta los componentes de software. En un entorno de almacenamiento de datos, los servicios de middleware son el conjunto de programas y rutinas que hacen lo siguiente:Extraer datos de la fuente (o…
Servicios de replicación de almacenamiento de datos Servicios de middleware de replicación combinan la selección y la extracción, el movimiento y la carga de una base de datos para uno o más otros, por lo general gestionadas por un solo producto DBMS. (La base de datos de origen y todos los…
La evolución de los modelos de despliegue en la era de los grandes datos Con la llegada de grandes volúmenes de datos, los modelos de implementación para la gestión de datos están cambiando. El almacén de datos tradicional se lleva a cabo normalmente en un solo sistema, grande dentro del centro de datos. Los costes…
Los fundamentos de la gran integración de datos Los elementos fundamentales de la plataforma de datos grande gestionar los datos de nuevas maneras, en comparación con la base de datos relacional tradicional. Esto es debido a la necesidad de contar con la escalabilidad y alto rendimiento…
El futuro de los almacenes de datos en la era de los grandes datos El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…
Mejores prácticas para la gran integración de datos Muchas empresas están explorando problemas de datos grandes y dar con algunas soluciones innovadoras. Ahora es el momento de prestar atención a algunos mejores prácticas, o principios básicos, que serán muy útiles a medida que comienza su…
Definición de los grandes datos: el volumen, la velocidad, y la variedad Big Data permite a las organizaciones almacenar, gestionar y manipular grandes cantidades de datos dispares a la velocidad adecuada y en el momento adecuado. Para obtener los conocimientos adecuados, grandes datos se suelen dividirse por tres…