Identificar los datos que necesita para su big data

Hacer un balance de el tipo de datos que está tratando con su proyecto de datos grande. Muchas organizaciones están reconociendo que una gran cantidad de datos generados internamente no se ha utilizado en todo su potencial en el pasado.

Conteúdo

La etapa exploratoria de datos grande

Flumeng de gran integración de datos
Patrones en grandes datos

La etapa de codificación de datos grande
Integración de datos grande y la etapa de incorporación

Mediante el aprovechamiento de las nuevas herramientas, las organizaciones están ganando una nueva visión de fuentes sin explotar de datos no estructurados en los correos electrónicos, registros de servicio al cliente, datos de los sensores, y los registros de seguridad. Además, existe un gran interés en la búsqueda de una nueva perspectiva basada en el análisis de datos que es principalmente externo a la organización, como los medios de comunicación social, la ubicación del teléfono móvil, el tráfico y el clima.

La etapa exploratoria de datos grande

En las primeras etapas de su análisis, usted querrá buscar patrones en los datos. Sólo mediante el examen de grandes volúmenes de datos que las relaciones y correlaciones nuevas e inesperadas entre los elementos pueden ser evidentes. Estos patrones pueden dar una idea de las preferencias del cliente para un nuevo producto, por ejemplo. Usted necesitará una plataforma para la organización de grandes datos para buscar estos patrones.

Hadoop es ampliamente utilizado como un bloque de construcción subyacente para la captura y procesamiento de datos grandes. Hadoop está diseñado con funciones que aceleran el procesamiento de grandes volúmenes de datos y hacen posible identificar patrones en grandes cantidades de datos en un tiempo relativamente corto. Los dos componentes principales de Hadoop - Hadoop Distributed File System (HDFS) y MapReduce - se utilizan para gestionar y procesar sus grandes datos.

FlumeNG de gran integración de datos

A menudo es necesario recopilar, agregar y mover cantidades extremadamente grandes de la transmisión de datos para buscar patrones ocultos en grandes volúmenes de datos. Herramientas de integración tradicionales, como ETL no serían lo suficientemente rápido como para mover los grandes flujos de datos en el momento de entregar los resultados de análisis, tales como la detección de fraudes en tiempo real. FlumeNG carga datos en tiempo real de transmisión de datos en Hadoop.

Típicamente, Flume se utiliza para recopilar grandes cantidades de datos de registro de servidores distribuidos. Se realiza un seguimiento de todos los nodos físicos y lógicos en una instalación Flume. Nodos Agent se instalan en los servidores y son responsables de la gestión de la forma en que un único flujo de datos se transfieren y se procesa a partir de su punto de inicio hasta su punto de destino.

Además, los colectores se utilizan para agrupar los flujos de datos en los arroyos más grandes que se pueden escribir a un sistema de archivos Hadoop o otro gran contenedor de almacenamiento de datos. Flume está diseñado para la escalabilidad y puede añadir continuamente más recursos a un sistema para manejar enormes cantidades de datos de forma eficiente. La salida del canal de flujo se puede integrar con Hadoop Hive y para el análisis de los datos.

Flume también tiene elementos de transformación de uso de los datos y puede convertir su infraestructura Hadoop en una fuente de transmisión de datos no estructurados.

Patrones en grandes datos

Usted encontrará muchos ejemplos de empresas que comienzan a darse cuenta de las ventajas competitivas de análisis de datos grandes. Para muchas empresas, los flujos de datos de medios sociales son cada vez más un componente integral de una estrategia de marketing digital. En la etapa exploratoria, esta tecnología se puede utilizar para buscar rápidamente a través de grandes cantidades de datos en streaming y sacar los patrones de tendencias que se relacionan con los productos o clientes específicos.

La etapa de codificación de datos grande

Con cientos de tiendas y muchos miles de clientes, es necesario un proceso repetible para dar el salto desde la identificación de patrón para la implementación de la nueva selección de productos y el marketing más específico. Después de encontrar algo interesante en su análisis de datos grande, codificarlo y convertirlo en una parte de su proceso de negocio.

Para codificar la relación entre sus análisis de datos grandes y sus datos operativos, es necesario integrar los datos.

Integración de datos grande y la etapa de incorporación

Big Data está teniendo un gran impacto en muchos aspectos de la gestión de datos, incluida la integración de datos. Tradicionalmente, la integración de datos se ha centrado en el movimiento de datos a través de middleware, incluyendo especificaciones sobre el paso de mensajes y los requisitos para las interfaces de programación de aplicaciones (API). Estos conceptos de integración de datos son más apropiados para la gestión de datos en reposo en lugar de datos en movimiento.

La entrada en el nuevo mundo de los datos no estructurados y los datos de transmisión cambia la noción convencional de integración de datos. Si desea incorporar a su análisis de la transmisión de datos en el proceso de negocio, usted necesita tecnología avanzada que es lo suficientemente rápido para que pueda tomar decisiones en tiempo real.

Después de su análisis de grandes datos es completa, es necesario un enfoque que le permitirá integrar o incorporar los resultados de su análisis de grandes datos en su proceso de negocio y acciones de negocio en tiempo real.

Las empresas tienen altas expectativas para ganar valor de negocio real a partir de análisis de datos grande. De hecho, muchas empresas les gustaría iniciar un análisis más profundo de los grandes datos generados internamente, como datos de registro de seguridad, que no era posible anteriormente debido a limitaciones tecnológicas.

Tecnologías para el transporte de alta velocidad de datos muy grandes y rápidos son un requisito para la integración a través de fuentes de datos grandes y distribuidas entre los grandes datos y los datos operacionales. Fuentes de datos no estructurados a menudo necesitan ser trasladado rápidamente a grandes distancias geográficas para el intercambio y la colaboración.

Vinculación de las fuentes tradicionales con grandes datos es un proceso de múltiples etapas después de haber examinado todos los datos de la transmisión de las fuentes de datos grandes y se identificaron los patrones relevantes. Después de reducir la cantidad de datos que necesita para administrar y analizar, ahora lo que necesita para pensar en la integración.

Sobre el autor

Grandes de análisis de datos de soluciones de proveedores

Un número de proveedores en el mercado hoy apoyar la creciente necesidad de soluciones de datos grandes para su negocio. Aquí está una lista de algunas soluciones que pueden resultar interesantes:IBM está tomando un enfoque empresarial de…

Big data: la necesidad de metadatos en los flujos de datos

La mayoría de grandes profesionales de la gestión de datos están familiarizados con la necesidad de gestionar los metadatos en entornos de gestión de base de datos estructurados. Estas fuentes de datos son fuertemente tipados (por ejemplo, los…

Análisis de datos grandes y el almacén de datos

Va a encontrar valor en traer las capacidades del almacén de datos y el entorno de datos grande juntos. Es necesario crear un entorno híbrido donde los datos grandes pueden trabajar de la mano con el almacén de datos.En primer lugar, es…

Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos

La organización de los servicios de datos y herramientas, la capa 3 de la pila de datos grande, capturar, validar, y montar varios elementos de datos grandes en colecciones contextualmente relevantes. Dado que los datos de grande es masiva, las…

La evolución de los modelos de despliegue en la era de los grandes datos

Con la llegada de grandes volúmenes de datos, los modelos de implementación para la gestión de datos están cambiando. El almacén de datos tradicional se lleva a cabo normalmente en un solo sistema, grande dentro del centro de datos. Los costes…

Los fundamentos de la gran integración de datos

Los elementos fundamentales de la plataforma de datos grande gestionar los datos de nuevas maneras, en comparación con la base de datos relacional tradicional. Esto es debido a la necesidad de contar con la escalabilidad y alto rendimiento…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Mejores prácticas para la gran integración de datos

Muchas empresas están explorando problemas de datos grandes y dar con algunas soluciones innovadoras. Ahora es el momento de prestar atención a algunos mejores prácticas, o principios básicos, que serán muy útiles a medida que comienza su…

Definición de los grandes datos: el volumen, la velocidad, y la variedad

Big Data permite a las organizaciones almacenar, gestionar y manipular grandes cantidades de datos dispares a la velocidad adecuada y en el momento adecuado. Para obtener los conocimientos adecuados, grandes datos se suelen dividirse por tres…

Gestión de datos empresariales y datos grandes

Gestión de datos empresariales (EDM) es un proceso importante en las grandes datos para la comprensión y el control de la economía de los datos en su empresa u organización. Aunque EDM no es necesaria para los grandes datos, la correcta…

Cómo priorizar gran calidad de los datos

Conseguir la perspectiva correcta sobre calidad de los datos puede ser muy difícil en el mundo de los grandes datos. Con la mayoría de las fuentes de datos grandes, es necesario asumir que se está trabajando con datos que no está limpio. De…

Mantenga análisis de datos grandes en perspectiva

Big Data está empezando a tener un impacto importante en la estrategia de negocio. Debido a la creciente importancia de los datos grandes, manteniendo análisis de datos en perspectiva es una buena práctica empresarial. Las empresas están…

maniqui-es.com » Computadoras y software » Big Data » Ingeniería » Identificar los datos que necesita para su big data