La gestión de las tecnologías de datos grandes en una nube híbrida
El termino Big Data
se utiliza a menudo en el mundo de la tecnología de nube híbrida debido a la continua necesidad de procesar cantidades crecientes de datos. El hecho clave sobre grandes datos es que existe en el punto de las soluciones que las organizaciones han puesto históricamente en lugar de manejar grandes volúmenes de datos complejos de inflexión. Tecnologías de datos grandes permiten a las personas para analizar realidad y utilizar estos datos con eficacia.Características de datos grandes
Gran datos generalmente tiene tres características - volumen, variedad y velocidad:
Volumen: Big Data es grande en volumen. Por lo general, se refiere a al menos varios terabytes de datos. Muchas implementaciones de datos grandes están buscando para analizar petabytes de información.
Nombre Valor Byte 100 Gigabyte 109 bytes Terabyte 1012 bytes Petabyte 1015 bytes Exabyte 1018 bytes Variedad: Gran datos vienen en diferentes formas y tamaños. Incluye estos tipos de datos:
Datos estructurados es la clase típica de los datos que los analistas están acostumbrados a tratar con. Incluye los ingresos y el número de ventas - el tipo de datos que usted piensa acerca de la inclusión en una base de datos. Datos estructurado también se está produciendo en las nuevas maneras en productos tales como sensores y etiquetas RFID.
Datos semiestructurada tiene cierta estructura a ella, pero no en la forma de pensar sobre las tablas de una base de datos. Incluye formatos EDI y XML.
Los datos no estructurados incluye texto, imagen y audio, incluyendo cualquier documento, mensaje de correo electrónico, pío, o un blog interno de una empresa o en Internet. Los datos no estructurados representa alrededor del 80 por ciento de todos los datos.
Velocity: Esta es la velocidad a la que los datos se mueve. Piense en los sensores de captura de datos de cada milisegundo o corrientes de datos de salida de los equipos médicos. Gran datos a menudo viene a usted de una corriente, por lo que tiene una naturaleza en tiempo real asociada a ella.
La nube es un lugar ideal para grandes datos debido a su almacenamiento escalable, calcular la energía y los recursos elásticas. El modelo de nube está a gran escala- la computación y una serie de marcos y tecnologías distribuye han surgido para apoyar este modelo, incluyendo
Hadoop: Una plataforma de computación distribuida de código abierto escrito en Java. Es una biblioteca de software que permite distribuir el procesamiento a través de grupos de ordenadores. Es realmente un sistema de archivos distribuido. Crea una piscina equipo, cada uno con un sistema de archivos Hadoop. Hadoop fue diseñado para hacer frente a grandes cantidades de datos complejos. Los datos pueden ser estructurados, no estructurados o semi-estructurada. Hadoop puede correr a través de una gran cantidad de servidores que no comparten memoria o disco. Ver Hadoop para más información.
Mapa reducido: Un marco de software introducido por Google para apoyar la computación distribuida en grandes conjuntos de datos. Está en el corazón de lo que Hadoop está haciendo con grandes volúmenes de datos y análisis de datos grandes. Está diseñado para aprovechar los recursos de la nube. Este cómputo se realiza a través de numerosos ordenadores, llama racimos, y cada grupo se conoce como una nodo. MapReduce puede tratar tanto los datos estructurados y no estructurados. Los usuarios especifican una función de mapa que procesa un par clave / valor para generar un conjunto de pares intermedios y una función de reducción que fusiona estos pares.
Bases de datos de datos grandes
Un recurso importante de Hadoop es que puede manejar diferentes tipos de datos. Sistemas de gestión de bases de datos paralelas han estado en el mercado desde hace décadas. Pueden apoyar la ejecución en paralelo, porque la mayoría de las mesas están repartió en los nodos de un clúster, y pueden traducirse comandos SQL en un plan que se divide en todos los nodos del clúster. Sin embargo, se ocupan en su mayoría con los datos estructurados, porque es difícil de encajar, datos de forma libre no estructurados en las columnas y filas en un modelo relacional.
Hadoop ha iniciado un movimiento en lo que se ha llamado NoSQL, lo que significa no sólo SQL. El término se refiere a un conjunto de tecnologías que es diferente de los sistemas de bases de datos relacionales. Una diferencia importante es que no utilizan SQL. También están diseñados para los almacenes de datos distribuidas.
NoSQL no significa que la gente no debería estar utilizando SQL. Por el contrario, la idea es que, dependiendo de cuál es tu problema, las bases de datos relacionales y bases de datos NoSQL pueden coexistir en una organización. Existen numerosos ejemplos de este tipo de bases de datos, incluyendo las siguientes:
Apache Cassandra: Un sistema de gestión de datos de código abierto distribuido originalmente desarrollado por Facebook. No tiene requisitos de estructura estrictas, por lo que puede manejar todos los diferentes tipos de datos. Los expertos afirman que se destaca en alto volumen, procesamiento de transacciones en tiempo real. Otras bases de datos de código abierto incluyen MongoDB, Apache CouchDB, y Apache HBase.
Amazon DB simple: Amazon compara esta base de datos a una hoja de cálculo en que tiene columnas y filas con atributos y los artículos almacenados en cada uno. A diferencia de una hoja de cálculo, sin embargo, cada célula puede tener varios valores, y cada artículo puede tener su propio conjunto de atributos asociados. Amazon luego indexa automáticamente los datos. Recientemente, Amazon anunció Amazon Dynamo DB como una manera de traer de datos NoSQL grandes a la nube.
Google BigTable: Este híbrido es algo así como una gran mesa. Debido a que las tablas pueden ser grandes, que están divididos en los límites de fila en las tablas, que pueden ser cientos de megabytes o menos. MapReduce se utiliza a menudo para generar y modificar los datos almacenados en BigTable.