Big data: la necesidad de metadatos en los flujos de datos

La mayoría de grandes profesionales de la gestión de datos están familiarizados con la necesidad de gestionar los metadatos en entornos de gestión de base de datos estructurados. Estas fuentes de datos son fuertemente tipados (por ejemplo, los diez primeros caracteres son el primer nombre) y diseñados para funcionar con metadatos. Es posible suponer que los metadatos es inexistente en los datos no estructurados, pero eso no es cierto.

Normalmente, usted encontrará la estructura en cualquier tipo de datos. Tomemos el ejemplo de vídeo. Aunque es posible que no pueda saber con exactitud el contenido de un vídeo específico, existe una gran cantidad de estructura en el formato de que los datos basados ​​en vídeo. Si usted está buscando en texto no estructurado, ya sabes que las palabras están escritas en Inglés y que si se aplican las herramientas adecuadas, se puede interpretar el texto.

Debido a estos metadatos implícita a partir de datos no estructurados, es posible analizar la información utilizando eXtensible Markup Language (XML). XML es una técnica para la presentación de archivos de texto no estructurados con las etiquetas significativas. La tecnología subyacente no es nuevo y fue una de las tecnologías fundamentales para la implementación de la orientación al servicio.

Ejemplos de productos de flujo de datos incluyen InfoSphere Streams de IBM, Tormenta de Twitter y S4 de Yahoo.

Grandes datos e IBM InfoSphere Streams

InfoSphere Streams proporciona análisis continuo de los volúmenes de datos masivos. Se tiene la intención de realizar análisis complejos de tipos de datos heterogéneos, incluyendo texto, imágenes, audio, voz, VoIP, vídeo, tráfico web, correo electrónico, datos GPS, datos de transacciones financieras, los datos de satélite y sensores. InfoSphere Streams puede soportar todos los tipos de datos. Se puede realizar en tiempo real y de anticipación análisis de los datos generados con regularidad, mediante el filtrado digital, análisis de patrones / correlación, y la descomposición así como el análisis geoespacial.

Big data y Tormenta de Twitter

Tormenta de Twitter es un motor de análisis en tiempo real de código abierto desarrollado por una compañía llamada BackType que fue adquirida por Twitter en 2011 en parte debido a la tormenta Twitter utiliza internamente. Todavía está disponible como código abierto y ha ido ganando tracción significativa entre las empresas emergentes.

Se puede utilizar con cualquier lenguaje de programación para aplicaciones tales como análisis en tiempo real, la computación continua, distribuidos llamadas a procedimientos remotos (RPC), y la integración. La tormenta está diseñado para trabajar con las tecnologías de gestión de colas y de bases de datos existentes. Las empresas que utilizan la tormenta en sus grandes implementaciones de datos incluyen Groupon, RocketFuel, Navisite y Oolgala.

Big data y Apache S4

El cuatro S's en S4 destacan para Simple Sistema Transmisión escalable. Apache S4 fue desarrollado por Yahoo! como de propósito general, distribuida, escalable parcialmente tolerante a fallos plataforma, conectable que permite a los programadores desarrollar fácilmente aplicaciones para el procesamiento de las corrientes continuas de datos. La plataforma central está escrito en Java y fue lanzado por Yahoo! en 2010.

Un año más tarde, fue entregado a Apache bajo la licencia Apache 2.0. Los clientes que envían y reciben los eventos se pueden escribir en cualquier lenguaje de programación. S4 está diseñado como un sistema altamente distribuido. El rendimiento se puede aumentar de forma lineal mediante la adición de nodos en un clúster. El diseño S4 es el más adecuado para aplicaciones a gran escala para la minería de datos y aprendizaje automático en un entorno de producción.




» » » » Big data: la necesidad de metadatos en los flujos de datos