Big Data permite a las organizaciones almacenar, gestionar y manipular grandes cantidades de datos dispares a la velocidad adecuada y en el momento adecuado. Para obtener los conocimientos adecuados, grandes datos se suelen dividirse por tres características:
Si bien es conveniente simplificar los grandes datos en los tres Vs, puede ser engañosa y demasiado simplista. Por ejemplo, puede ser la gestión de una cantidad relativamente pequeña de datos complejos, muy dispares, o es posible que se procesa un gran volumen de datos muy simples. Esos datos simples pueden ser todo estructurada o no estructurada todo.
Aún más importante es la cuarta V, veracidad. ¿Qué tan precisa es que los datos para predecir el valor del negocio? ¿Los resultados de un análisis de datos grandes en realidad tienen sentido? Los datos deben ser capaces de ser verificada basada tanto en la precisión y el contexto. Un negocio innovador puede querer ser capaz de analizar grandes cantidades de datos en tiempo real para evaluar rápidamente el valor de ese cliente y el potencial de proporcionar ofertas adicionales a ese cliente. Es necesario identificar la cantidad y tipos de datos que pueden ser analizados en tiempo real para impactar los resultados de negocio derecha.
Big Data incorpora todas las variedades de datos, incluyendo datos estructurados y no estructurados de datos de correos electrónicos, redes sociales, flujos de texto, y así sucesivamente. Este tipo de gestión de datos obliga a las empresas a aprovechar tanto sus datos estructurados y no estructurados.
La comprensión de datos no estructurados
Los datos no estructurados es diferente de datos estructurados en que su estructura es impredecible. Ejemplos de datos no estructurados incluyen documentos, correos electrónicos, blogs, imágenes digitales, vídeos e imágenes de satélite. También incluye algunos datos generados por máquinas o sensores. De hecho, los datos no estructurados representa la mayor parte de los datos que está en los locales de su empresa, así como externo a su empresa en fuentes privadas y públicas en línea como Twitter y Facebook.
En el pasado, la mayoría de las empresas no fueron capaces de capturar o almacenar esta gran cantidad de datos. Era simplemente demasiado caro o demasiado abrumador. Incluso si las empresas fueron capaces de capturar los datos, no tenían las herramientas para analizar fácilmente los datos y utilizar los resultados para tomar decisiones. Muy pocas herramientas podrían dar sentido a estas grandes cantidades de datos. Las herramientas que existían eran complejos de usar y no produjeron resultados en un plazo razonable.
Al final, los que realmente quería ir al enorme esfuerzo de analizar estos datos se vieron obligados a trabajar con instantáneas de datos. Esto tiene el efecto indeseable de desaparecidos eventos importantes debido a que no estaban en una instantánea en particular.
Un enfoque que se está convirtiendo cada vez más valorado como una forma de obtener valor de negocio a partir de datos no estructurados es análisis de texto, el proceso de análisis de texto no estructurado, la extracción de información relevante, y transformarla en información estructurada que puede ser aprovechada de diversas maneras. Los procesos de análisis y extracción de tomar ventaja de las técnicas que se originaron en la lingüística computacional, estadística y otras disciplinas de la informática.
El papel de los datos operacionales tradicionales en el entorno de datos grande
Sabiendo lo que se almacenan los datos y donde se almacenan son bloques fundamentales de construcción en su aplicación de datos grande. Es poco probable que usted utiliza RDBMS para el núcleo de la aplicación, pero es muy probable que usted tendrá que confiar en los datos almacenados en los RDBMS para crear el más alto nivel de valor para el negocio con grandes volúmenes de datos.
La mayoría de las empresas grandes y pequeñas, probablemente almacenar la mayoría de su información operativa importante en los sistemas de gestión de bases de datos relacionales (RDBMS), que se basa en una o más relaciones y representada por tablas. Estas tablas se definen por la forma en que los datos se stored.The datos se almacena en objetos de base denominadas mesas - organizados en filas y columnas. RDBMS seguir un enfoque coherente en la forma en que los datos se almacenan y recuperan.
Para obtener el valor de la mayoría de negocios de su análisis en tiempo real de los datos no estructurados, es necesario comprender que los datos en el contexto de los datos históricos sobre clientes, productos, transacciones y operaciones. En otras palabras, se necesita integrar sus datos no estructurados con tus datos operativos tradicionales.
Fundamentos de Infraestructura Big Data
Big Data es todo acerca de la alta velocidad, grandes volúmenes, y una amplia variedad de datos, por lo que la infraestructura física, literalmente "hacer o deshacer" la implementación. La mayoría de las implementaciones de datos grandes deben ser altamente disponible, por lo que las redes, servidores y almacenamiento físico deben ser resistentes y redundante.
Resistencia y redundancia están interrelacionados. Una infraestructura, o un sistema, es resistente a la insuficiencia o cambia cuando suficientes recursos redundantes están en su lugar listo para entrar en acción. Resiliencia ayuda a eliminar los puntos únicos de fallo en su infraestructura. Por ejemplo, si sólo existe una conexión de red entre su empresa y la Internet, usted no tiene la redundancia de la red y la infraestructura no es elástica con respecto a una caída de la red.
En los grandes centros de datos con los requisitos de continuidad del negocio, la mayoría de la redundancia es en su lugar y se puede aprovechar para crear un entorno de datos grande. En las nuevas implementaciones, los diseñadores tienen la responsabilidad de asignar el despliegue a las necesidades de la empresa en base a los costos y el rendimiento.
La gestión de grandes volúmenes de datos con Hadoop: HDFS y MapReduce
Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación distribuida.
El sistema de archivos distribuido Hadoop (HDFS) fue desarrollado para permitir a las empresas a gestionar más fácilmente grandes volúmenes de datos de una manera simple y pragmática. Hadoop permite grandes problemas que se descomponen en elementos más pequeños por lo que el análisis se puede realizar de forma rápida y rentable. HDFS es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande.
HDFS no es el destino final de los archivos. Más bien es un "servicio" de datos que ofrece un conjunto único de capacidades necesarias cuando los volúmenes y la velocidad de datos son altas.
MapReduce es un marco de software que permite a los desarrolladores escribir programas que pueden procesar grandes cantidades de datos no estructurados en paralelo a través de un grupo distribuido de procesadores. MapReduce fue diseñada por Google como una manera de ejecutar de manera eficiente un conjunto de funciones contra una gran cantidad de datos en el modo por lotes.
El "mapa" componente distribuye el problema de programación o tareas a través de un gran número de sistemas y se ocupa de la colocación de las tareas de una manera que equilibra la carga y gestiona la recuperación de fallos. Después de que se complete la computación distribuida, otra función llamada "reducir" agrega todos los elementos de nuevo juntos para proporcionar un resultado. Un ejemplo de uso de MapReduce sería determinar el número de páginas de un libro están escritos en cada uno de los 50 idiomas diferentes.
Sentar las bases de su estrategia de Big Data
Las empresas están nadando en grandes volúmenes de datos. El problema es que a menudo no saben cómo utilizar pragmáticamente que los datos sean capaces de predecir el futuro, ejecutar procesos de negocios importantes, o simplemente obtener nuevos conocimientos. El objetivo de su estrategia de datos grande y el plan debe ser encontrar una manera pragmática de aprovechar los datos para los resultados de negocio más predecibles.
Comience su estrategia de datos grande por embarcarse en un proceso de descubrimiento. Usted necesita tener una idea de lo que los datos que ya tiene, dónde está, que posee y controla, y la forma en que se utiliza actualmente. Por ejemplo, ¿cuáles son las fuentes de datos de terceros que su empresa se basa en? Este proceso le puede dar un montón de puntos de vista:
Usted puede determinar el número de fuentes de datos que tiene y la que existe mucha superposición.
Puede identificar existen lagunas en el conocimiento sobre esas fuentes de datos.
Usted podría descubrir que usted tiene un montón de datos duplicados en un área del negocio y casi no hay datos en otra área.
Usted puede cerciorarse de que usted es dependiente de los datos de terceros que no es tan preciso como debe ser.
Pase el tiempo que necesita para hacer este proceso de descubrimiento, ya que será la base para la planificación y ejecución de su estrategia de datos grande.