La gestión de las tecnologías de datos grandes en una nube híbrida

El termino Big Data

Conteúdo

Características de datos grandes
Bases de datos de datos grandes

se utiliza a menudo en el mundo de la tecnología de nube híbrida debido a la continua necesidad de procesar cantidades crecientes de datos. El hecho clave sobre grandes datos es que existe en el punto de las soluciones que las organizaciones han puesto históricamente en lugar de manejar grandes volúmenes de datos complejos de inflexión. Tecnologías de datos grandes permiten a las personas para analizar realidad y utilizar estos datos con eficacia.

Características de datos grandes

Gran datos generalmente tiene tres características - volumen, variedad y velocidad:

Volumen: Big Data es grande en volumen. Por lo general, se refiere a al menos varios terabytes de datos. Muchas implementaciones de datos grandes están buscando para analizar petabytes de información.
Nombre Valor
Byte 10⁰
Gigabyte 10⁹ bytes
Terabyte 10¹² bytes
Petabyte 10¹⁵ bytes
Exabyte 10¹⁸ bytes
Variedad: Gran datos vienen en diferentes formas y tamaños. Incluye estos tipos de datos:

Nombre	Valor
Byte	10⁰
Gigabyte	10⁹ bytes
Terabyte	10¹² bytes
Petabyte	10¹⁵ bytes
Exabyte	10¹⁸ bytes

Datos estructurados es la clase típica de los datos que los analistas están acostumbrados a tratar con. Incluye los ingresos y el número de ventas - el tipo de datos que usted piensa acerca de la inclusión en una base de datos. Datos estructurado también se está produciendo en las nuevas maneras en productos tales como sensores y etiquetas RFID.
Datos semiestructurada tiene cierta estructura a ella, pero no en la forma de pensar sobre las tablas de una base de datos. Incluye formatos EDI y XML.
Los datos no estructurados incluye texto, imagen y audio, incluyendo cualquier documento, mensaje de correo electrónico, pío, o un blog interno de una empresa o en Internet. Los datos no estructurados representa alrededor del 80 por ciento de todos los datos.

Velocity: Esta es la velocidad a la que los datos se mueve. Piense en los sensores de captura de datos de cada milisegundo o corrientes de datos de salida de los equipos médicos. Gran datos a menudo viene a usted de una corriente, por lo que tiene una naturaleza en tiempo real asociada a ella.

La nube es un lugar ideal para grandes datos debido a su almacenamiento escalable, calcular la energía y los recursos elásticas. El modelo de nube está a gran escala- la computación y una serie de marcos y tecnologías distribuye han surgido para apoyar este modelo, incluyendo

Hadoop: Una plataforma de computación distribuida de código abierto escrito en Java. Es una biblioteca de software que permite distribuir el procesamiento a través de grupos de ordenadores. Es realmente un sistema de archivos distribuido. Crea una piscina equipo, cada uno con un sistema de archivos Hadoop. Hadoop fue diseñado para hacer frente a grandes cantidades de datos complejos. Los datos pueden ser estructurados, no estructurados o semi-estructurada. Hadoop puede correr a través de una gran cantidad de servidores que no comparten memoria o disco. Ver Hadoop para más información.
Mapa reducido: Un marco de software introducido por Google para apoyar la computación distribuida en grandes conjuntos de datos. Está en el corazón de lo que Hadoop está haciendo con grandes volúmenes de datos y análisis de datos grandes. Está diseñado para aprovechar los recursos de la nube. Este cómputo se realiza a través de numerosos ordenadores, llama racimos, y cada grupo se conoce como una nodo. MapReduce puede tratar tanto los datos estructurados y no estructurados. Los usuarios especifican una función de mapa que procesa un par clave / valor para generar un conjunto de pares intermedios y una función de reducción que fusiona estos pares.

Bases de datos de datos grandes

Un recurso importante de Hadoop es que puede manejar diferentes tipos de datos. Sistemas de gestión de bases de datos paralelas han estado en el mercado desde hace décadas. Pueden apoyar la ejecución en paralelo, porque la mayoría de las mesas están repartió en los nodos de un clúster, y pueden traducirse comandos SQL en un plan que se divide en todos los nodos del clúster. Sin embargo, se ocupan en su mayoría con los datos estructurados, porque es difícil de encajar, datos de forma libre no estructurados en las columnas y filas en un modelo relacional.

Hadoop ha iniciado un movimiento en lo que se ha llamado NoSQL, lo que significa no sólo SQL. El término se refiere a un conjunto de tecnologías que es diferente de los sistemas de bases de datos relacionales. Una diferencia importante es que no utilizan SQL. También están diseñados para los almacenes de datos distribuidas.

NoSQL no significa que la gente no debería estar utilizando SQL. Por el contrario, la idea es que, dependiendo de cuál es tu problema, las bases de datos relacionales y bases de datos NoSQL pueden coexistir en una organización. Existen numerosos ejemplos de este tipo de bases de datos, incluyendo las siguientes:

Apache Cassandra: Un sistema de gestión de datos de código abierto distribuido originalmente desarrollado por Facebook. No tiene requisitos de estructura estrictas, por lo que puede manejar todos los diferentes tipos de datos. Los expertos afirman que se destaca en alto volumen, procesamiento de transacciones en tiempo real. Otras bases de datos de código abierto incluyen MongoDB, Apache CouchDB, y Apache HBase.
Amazon DB simple: Amazon compara esta base de datos a una hoja de cálculo en que tiene columnas y filas con atributos y los artículos almacenados en cada uno. A diferencia de una hoja de cálculo, sin embargo, cada célula puede tener varios valores, y cada artículo puede tener su propio conjunto de atributos asociados. Amazon luego indexa automáticamente los datos. Recientemente, Amazon anunció Amazon Dynamo DB como una manera de traer de datos NoSQL grandes a la nube.
Google BigTable: Este híbrido es algo así como una gran mesa. Debido a que las tablas pueden ser grandes, que están divididos en los límites de fila en las tablas, que pueden ser cientos de megabytes o menos. MapReduce se utiliza a menudo para generar y modificar los datos almacenados en BigTable.

Sobre el autor

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Bases de datos de procesamiento masivamente paralelo

Para proporcionar una mejor comprensión de las alternativas SQL-en-Hadoop Hive a, podría ser útil revisar una cartilla en el procesamiento paralelo masivo (MPP) bases de datos primero.Apache Hive es en capas en la parte superior del sistema de…

Almacenamiento de datos estructurados y procesamiento de Hadoop

Al considerar las capacidades de Hadoop para trabajar con datos estructurados (o trabajar con datos de cualquier tipo, para el caso), recuerda las características fundamentales de Hadoop: Hadoop es, ante todo, una plataforma de almacenamiento y…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

Big data: la necesidad de metadatos en los flujos de datos

La mayoría de grandes profesionales de la gestión de datos están familiarizados con la necesidad de gestionar los metadatos en entornos de gestión de base de datos estructurados. Estas fuentes de datos son fuertemente tipados (por ejemplo, los…

Bases de datos de columna en un entorno de datos grande

Bases de datos de columnas pueden ser muy útiles en su proyecto de datos grande. Bases de datos relacionales son fila orientada, como los datos en cada fila de una tabla se almacena junto. En una columnar, o base de datos orientada a columnas, se…

Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos

La organización de los servicios de datos y herramientas, la capa 3 de la pila de datos grande, capturar, validar, y montar varios elementos de datos grandes en colecciones contextualmente relevantes. Dado que los datos de grande es masiva, las…

Las bases de datos no relacionales en un entorno de datos grande

Las bases de datos no relacionales no se basan en la tabla / modelo clave endémica de RDBMS (sistemas de gestión de base de datos relacional). En resumen, los datos de la especialidad en el gran mundo de los datos requiere persistencia…

Asuntos de desempeño en la gestión de arquitectura de datos grande

Su gran arquitectura de datos también tiene que actuar en concierto con infraestructura de apoyo de su organización. Por ejemplo, usted podría estar interesado en el funcionamiento de los modelos para determinar si es seguro para perforar en…

La evolución de los modelos de despliegue en la era de los grandes datos

Con la llegada de grandes volúmenes de datos, los modelos de implementación para la gestión de datos están cambiando. El almacén de datos tradicional se lleva a cabo normalmente en un solo sistema, grande dentro del centro de datos. Los costes…

El futuro de los almacenes de datos en la era de los grandes datos

El mercado de almacenamiento de datos de hecho ha empezado a cambiar y evolucionar con la llegada de grandes datos. En el pasado, simplemente no era económico para las empresas a almacenar la cantidad masiva de datos de un gran número de sistemas…

Mejores prácticas para la gran integración de datos

Muchas empresas están explorando problemas de datos grandes y dar con algunas soluciones innovadoras. Ahora es el momento de prestar atención a algunos mejores prácticas, o principios básicos, que serán muy útiles a medida que comienza su…

maniqui-es.com » Computadoras y software » Administración y redes profesionales » Computación en la nube » La gestión de las tecnologías de datos grandes en una nube híbrida