Identificar los datos que necesita para su big data
Hacer un balance de el tipo de datos que está tratando con su proyecto de datos grande. Muchas organizaciones están reconociendo que una gran cantidad de datos generados internamente no se ha utilizado en todo su potencial en el pasado.
Conteúdo
Mediante el aprovechamiento de las nuevas herramientas, las organizaciones están ganando una nueva visión de fuentes sin explotar de datos no estructurados en los correos electrónicos, registros de servicio al cliente, datos de los sensores, y los registros de seguridad. Además, existe un gran interés en la búsqueda de una nueva perspectiva basada en el análisis de datos que es principalmente externo a la organización, como los medios de comunicación social, la ubicación del teléfono móvil, el tráfico y el clima.
La etapa exploratoria de datos grande
En las primeras etapas de su análisis, usted querrá buscar patrones en los datos. Sólo mediante el examen de grandes volúmenes de datos que las relaciones y correlaciones nuevas e inesperadas entre los elementos pueden ser evidentes. Estos patrones pueden dar una idea de las preferencias del cliente para un nuevo producto, por ejemplo. Usted necesitará una plataforma para la organización de grandes datos para buscar estos patrones.
Hadoop es ampliamente utilizado como un bloque de construcción subyacente para la captura y procesamiento de datos grandes. Hadoop está diseñado con funciones que aceleran el procesamiento de grandes volúmenes de datos y hacen posible identificar patrones en grandes cantidades de datos en un tiempo relativamente corto. Los dos componentes principales de Hadoop - Hadoop Distributed File System (HDFS) y MapReduce - se utilizan para gestionar y procesar sus grandes datos.
FlumeNG de gran integración de datos
A menudo es necesario recopilar, agregar y mover cantidades extremadamente grandes de la transmisión de datos para buscar patrones ocultos en grandes volúmenes de datos. Herramientas de integración tradicionales, como ETL no serían lo suficientemente rápido como para mover los grandes flujos de datos en el momento de entregar los resultados de análisis, tales como la detección de fraudes en tiempo real. FlumeNG carga datos en tiempo real de transmisión de datos en Hadoop.
Típicamente, Flume se utiliza para recopilar grandes cantidades de datos de registro de servidores distribuidos. Se realiza un seguimiento de todos los nodos físicos y lógicos en una instalación Flume. Nodos Agent se instalan en los servidores y son responsables de la gestión de la forma en que un único flujo de datos se transfieren y se procesa a partir de su punto de inicio hasta su punto de destino.
Además, los colectores se utilizan para agrupar los flujos de datos en los arroyos más grandes que se pueden escribir a un sistema de archivos Hadoop o otro gran contenedor de almacenamiento de datos. Flume está diseñado para la escalabilidad y puede añadir continuamente más recursos a un sistema para manejar enormes cantidades de datos de forma eficiente. La salida del canal de flujo se puede integrar con Hadoop Hive y para el análisis de los datos.
Flume también tiene elementos de transformación de uso de los datos y puede convertir su infraestructura Hadoop en una fuente de transmisión de datos no estructurados.
Patrones en grandes datos
Usted encontrará muchos ejemplos de empresas que comienzan a darse cuenta de las ventajas competitivas de análisis de datos grandes. Para muchas empresas, los flujos de datos de medios sociales son cada vez más un componente integral de una estrategia de marketing digital. En la etapa exploratoria, esta tecnología se puede utilizar para buscar rápidamente a través de grandes cantidades de datos en streaming y sacar los patrones de tendencias que se relacionan con los productos o clientes específicos.
La etapa de codificación de datos grande
Con cientos de tiendas y muchos miles de clientes, es necesario un proceso repetible para dar el salto desde la identificación de patrón para la implementación de la nueva selección de productos y el marketing más específico. Después de encontrar algo interesante en su análisis de datos grande, codificarlo y convertirlo en una parte de su proceso de negocio.
Para codificar la relación entre sus análisis de datos grandes y sus datos operativos, es necesario integrar los datos.
Integración de datos grande y la etapa de incorporación
Big Data está teniendo un gran impacto en muchos aspectos de la gestión de datos, incluida la integración de datos. Tradicionalmente, la integración de datos se ha centrado en el movimiento de datos a través de middleware, incluyendo especificaciones sobre el paso de mensajes y los requisitos para las interfaces de programación de aplicaciones (API). Estos conceptos de integración de datos son más apropiados para la gestión de datos en reposo en lugar de datos en movimiento.
La entrada en el nuevo mundo de los datos no estructurados y los datos de transmisión cambia la noción convencional de integración de datos. Si desea incorporar a su análisis de la transmisión de datos en el proceso de negocio, usted necesita tecnología avanzada que es lo suficientemente rápido para que pueda tomar decisiones en tiempo real.
Después de su análisis de grandes datos es completa, es necesario un enfoque que le permitirá integrar o incorporar los resultados de su análisis de grandes datos en su proceso de negocio y acciones de negocio en tiempo real.
Las empresas tienen altas expectativas para ganar valor de negocio real a partir de análisis de datos grande. De hecho, muchas empresas les gustaría iniciar un análisis más profundo de los grandes datos generados internamente, como datos de registro de seguridad, que no era posible anteriormente debido a limitaciones tecnológicas.
Tecnologías para el transporte de alta velocidad de datos muy grandes y rápidos son un requisito para la integración a través de fuentes de datos grandes y distribuidas entre los grandes datos y los datos operacionales. Fuentes de datos no estructurados a menudo necesitan ser trasladado rápidamente a grandes distancias geográficas para el intercambio y la colaboración.
Vinculación de las fuentes tradicionales con grandes datos es un proceso de múltiples etapas después de haber examinado todos los datos de la transmisión de las fuentes de datos grandes y se identificaron los patrones relevantes. Después de reducir la cantidad de datos que necesita para administrar y analizar, ahora lo que necesita para pensar en la integración.