Cómo utilizar los datos de streaming para grandes datos
A veces, cuando se acerca a los grandes datos, las empresas se enfrentan a enormes cantidades de datos y poca idea de a dónde ir después. Introduzca transmisión de datos. Cuando una cantidad significativa de datos necesita ser procesada rápidamente casi en tiempo real para obtener información, datos en movimiento en forma de datos de transmisión es la mejor respuesta.
¿Qué son los datos que se no ¿en reposo? Esto sería sistemas que manejan transacciones activas y por lo tanto necesitas persistencia. En estos casos, los datos se almacenan en un almacén de datos operativa. Sin embargo, en otras situaciones, esas transacciones se han ejecutado, y es hora de analizar esos datos típicamente en un almacén de datos o data mart.
Esto significa que la información se está procesando en el lote y no en tiempo real. Cuando las organizaciones están planeando para el futuro, tienen que ser capaces de analizar gran cantidad de datos, que van desde la información sobre lo que los clientes están comprando y por qué. Es importante entender los principales indicadores del cambio. En otras palabras, ¿cómo se cambia el impacto qué productos y servicios de una organización ofrecerá en el futuro?
Muchas organizaciones de investigación están utilizando este tipo de análisis de datos grandes para descubrir nuevos medicamentos. Una compañía de seguros puede querer comparar los patrones de accidentes de tráfico en una amplia área geográfica con las estadísticas meteorológicas. En estos casos, no existe ningún beneficio para gestionar esta información a la velocidad en tiempo real. Es evidente que el análisis tiene que ser rápido y práctico. Además, las organizaciones a analizar los datos para ver si los nuevos patrones emergen.
Streaming de datos es una plataforma de computación analítica que se centra en la velocidad. Esto es porque estas aplicaciones requieren un flujo continuo de datos a menudo no estructurados para ser procesado. Por lo tanto, se analiza continuamente los datos y se transformó en la memoria antes de que se almacena en un disco. Corrientes de tratamiento de datos obras de procesamiento " ventanas de tiempo " de datos en la memoria a través de una agrupación de servidores.
Esto es similar al enfoque en la gestión de datos en reposo aprovechando Hadoop. La principal diferencia es el tema de la velocidad. En el cluster Hadoop, los datos se recogen en modo batch y luego procesada. Velocidad importa menos en Hadoop que lo hace en la transmisión de datos. Algunos principios claves definen utilizando las corrientes es más apropiado:
Cuando es necesario determinar una oportunidad de compra al por menor en el punto de compromiso, ya sea a través de las redes sociales oa través de mensajería basada en permisos
La recopilación de información sobre el movimiento en torno a un sitio seguro
Para ser capaz de reaccionar a un evento que requiere una respuesta inmediata, como un corte de servicio o un cambio en la condición médica de un paciente
Cálculo en tiempo real de los costes que dependen de variables tales como los recursos disponibles y de uso
Transmisión de datos es útil cuando analíticas deben hacerse en tiempo real mientras los datos están en movimiento. De hecho, el valor del análisis (y a menudo los datos) disminuye con el tiempo. Por ejemplo, si no se puede analizar y actuar de inmediato, una oportunidad de ventas podría perderse o una amenaza podría pasar desapercibida.
Los siguientes son algunos ejemplos que pueden ayudar a explicar cómo esto es útil.
Una planta de energía necesita ser un entorno altamente seguro para que personas no autorizadas no interfieren con la entrega de energía a los clientes. Las empresas a menudo colocan sensores en todo el perímetro de un sitio para detectar el movimiento. Sin embargo, un problema podría existir. Existe una gran diferencia entre un conejo que se escabulle por el sitio y una conducción de automóviles rápidamente y deliberadamente. Por lo tanto, la gran cantidad de datos procedentes de estos sensores debe ser analizado en tiempo real para que suene una alarma sólo cuando existe una amenaza real.
Una compañía de telecomunicaciones en un mercado altamente competitivo quiere asegurarse de que los cortes son monitoreados cuidadosamente para que un descenso detectado en los niveles de servicio se puede escaló al grupo apropiado. Los sistemas de comunicaciones generan grandes volúmenes de datos que tienen que ser analizados en tiempo real para tomar la acción apropiada. Un retraso en la detección de un error puede afectar seriamente la satisfacción del cliente.
Huelga decir que las empresas están tratando con una gran cantidad de datos que necesita ser procesada y analizada en tiempo real. Por lo tanto, el entorno físico que soporta este nivel de respuesta es crítica. Entornos de datos que fluyen normalmente requieren una solución de hardware agrupado, y, a veces será necesario un enfoque de procesamiento masivamente paralelo para manejar el análisis.
Un factor importante acerca de la transmisión de análisis de datos es el hecho de que es un análisis de una sola pasada. En otras palabras, el analista no puede volver a analizar los datos después de que se transmite. Esto es común en aplicaciones en las que usted está buscando la ausencia de datos.
Si se requieren varias pasadas, los datos tendrán que ser puesto en algún tipo de almacén donde se puede realizar un análisis adicional. Por ejemplo, a menudo es necesario establecer el contexto. ¿Cómo funciona este flujo de datos se comparan con los datos históricos? Esta correlación se puede decir mucho acerca de lo que ha cambiado y lo que el cambio podría significar para su negocio.