Bases de datos de documentos en un entorno de datos grande

Usted encontrará dos tipos de bases de datos de documentos para proyectos de datos grandes. Uno a menudo se describe como un repositorio de contenido completo de estilo de documento. La otra es una base de datos para el almacenamiento de componentes de documentos para el almacenamiento permanente como una entidad estática o dinámica para el montaje de las partes de un documento. La estructura de los documentos y sus partes es proporcionada por javascript Object Notation (JSON) y / o JSON binario (BSON).

Conteúdo

Mongodb para grandes datos
Couchdb para grandes datos

Bases de datos de documentos son más útiles cuando se tiene que producir una gran cantidad de informes y que necesitan para ser montados de forma dinámica a partir de elementos que cambian con frecuencia.

En su esencia, JSON es un formato de intercambio de datos, basado en un subconjunto del lenguaje de programación javascript. Aunque parte de un lenguaje de programación, es textual en la naturaleza y muy fácil de leer y escribir. También tiene la ventaja de ser fácil para los ordenadores de manejar. Existen dos estructuras básicas en JSON, y son apoyados por muchos, si no todos, los lenguajes de programación modernos.

La primera estructura básica es una colección de pares nombre / valor, y se representan mediante programación como objetos, registros, listas de la forma adecuada, y así sucesivamente. La segunda estructura básica es una lista ordenada de valores, y están representados mediante programación como arrays, listas o secuencias. BSON es una serialización binaria de las estructuras JSON diseñados para aumentar el rendimiento y la escalabilidad.

MongoDB para grandes datos

MongoDB es el nombre del proyecto para la " hu (mongo) nos la base de datos " sistema. Es mantenido por una empresa llamada 10gen como código abierto y está disponible libremente bajo la licencia GNU AGPL v3.0. Las licencias comerciales con soporte completo están disponibles en 10gen.

MongoDB se compone de bases de datos que contienen " colecciones ". Una colección se compone de " documentos, " y cada documento se compone de campos. Al igual que en las bases de datos relacionales, puede indexar una colección.

Si lo hace, aumenta el rendimiento de las operaciones de búsqueda de datos. A diferencia de otras bases de datos, sin embargo, MongoDB vuelve algo llamado " cursor, " que sirve como un puntero a los datos. Esta es una capacidad muy útil, ya que ofrece la opción de contar o clasificar los datos sin extraerlo. Nativamente, MongoDB soporta BSON, la implementación binaria de documentos JSON.

MongoDB es también un ecosistema que consta de los siguientes elementos:

De alta disponibilidad y servicios de replicación para la ampliación a través de redes locales y de área amplia.
Un sistema de archivos basado en la red, que permite el almacenamiento de objetos grandes dividiéndolas entre varios documentos.
MapReduce para apoyar el análisis y agregación de diferentes colecciones / documentos.
Un servicio sharding que distribuye una sola base de datos en un clúster de servidores en una sola o en múltiples centros de datos. El servicio es accionado por una llave fragmento. La clave fragmento se utiliza para distribuir documentos de forma inteligente a través de múltiples instancias.
Un servicio de consulta que admite consultas ad hoc, consultas distribuidas y búsqueda de texto completo.

Implementaciones eficaz MongoDB incluyen

Gestión de contenidos de gran volumen
Redes Sociales
Archivado
Análisis en tiempo real

CouchDB para grandes datos

Otra base de datos no relacional muy popular es CouchDB. Como MongoDB, CouchDB es de código abierto. Es mantenido por la Apache Software Foundation y está disponible bajo la licencia Apache v2.0. A diferencia de MongoDB, CouchDB fue diseñado para imitar la web en todos los aspectos.

Por ejemplo, CouchDB es resistente a los abandonos de red y seguirá funcionando muy bien en zonas donde la conectividad de red es irregular. También está en casa en un teléfono inteligente o en un centro de datos. Todo esto viene con algunas ventajas y desventajas. Debido a la mímica web subyacente, CouchDB es alta latencia que resulta en una preferencia para el almacenamiento de datos local.

CouchDB no se adapta bien a las implementaciones más pequeñas. Usted debe determinar si estas compensaciones pueden ser ignorados al comenzar su aplicación de datos grande.

Bases de datos CouchDB se componen de los documentos que constan de los campos y los archivos adjuntos, así como un " Descripción " del documento en la forma de metadatos que se mantiene automáticamente por el sistema. La tecnología subyacente cuenta con todas las capacidades de ACID. La ventaja en CouchDB sobre relacional es que los datos se empaqueta y listo para la manipulación o el almacenamiento en lugar de dispersos a través de filas y tablas.

CouchDB es también un ecosistema con las siguientes capacidades:

Compactación: Las bases de datos se comprimen para eliminar espacio desperdiciado cuando se alcanza un cierto nivel de vacío. Esto ayuda a rendimiento y eficiencia para la persistencia.
Ver modelo: Un mecanismo para filtrar, organizar y presentación de informes sobre los datos que utilizan un conjunto de definiciones que se almacenan como documentos en la base de datos. Usted encontrará una relación de uno a muchos de bases de datos a puntos de vista, para que puedas crear muchas formas diferentes de representar los datos que tiene " en lonchas y en dados ".
Replicación y distribuidos servicios: Almacenamiento de documentos está diseñado para proporcionar la replicación bidireccional. Réplicas parciales se pueden mantener para apoyar la distribución basada en criterios o migración a dispositivos con conectividad limitada. Replicación nativo es entre iguales basada, pero se puede aplicar Maestro / Esclavo, Maestro / Maestro, y otros tipos de modalidades de replicación.

Implementaciones efectivas CouchDB incluyen

Gestión de contenidos de gran volumen
La ampliación del smartphone para centro de datos
Las aplicaciones con conectividad de red limitada o lenta

Sobre el autor

NoSQL para dummies

Clones Bigtables son un tipo de base de datos NoSQL que surgió de papel Bigtable seminal de Google. Bigtables son una forma altamente distribuida para gestionar los datos tabulares. Estas tablas de datos no se relacionan entre sí como si…

NoSQL y motores de búsqueda

Puede parecer extraño hablar de motores de búsqueda y NoSQL juntos, pero muchos de los motores de búsqueda de hoy utilizar una arquitectura muy similar a las bases de datos NoSQL. Sus índices y procesamiento de consultas son altamente…

Almacenes de datos NoSQL frente hadoop

Almacenes de datos NoSQL originalmente suscribieron a la noción " Apenas diga no a SQL " (parafraseando a partir de una campaña publicitaria anti-drogas en la década de 1980), y eran una reacción a las limitaciones percibidas de bases de datos…

Términos y definiciones NoSQL

Para que tu cabeza alrededor NoSQL puede ser un poco difícil. Si usted ha estudiado las bases de datos en la escuela, que puede haber sido adoctrinado en una forma relacional de pensamiento. Decir base de datos a la mayoría de la gente, y ellos…

No & # 8208-tan y características # 8208-comunes de nosql

Aunque algunas de las características son bastante comunes a bases de datos NoSQL (por ejemplo, el agnosticismo esquema y no # 8208-estructura relacional), no es raro que una base de datos que carecen de uno o más de las siguientes…

Reducir el tiempo de valor en nosql

Hora de valor es la cantidad de tiempo que se requiere que se inicie un proyecto de TI a ser capaz de darse cuenta de los beneficios del negocio. Esto puede haber beneficios tangibles en la reducción de costes o la posibilidad de realizar…

Bases de datos de columna en un entorno de datos grande

Bases de datos de columnas pueden ser muy útiles en su proyecto de datos grande. Bases de datos relacionales son fila orientada, como los datos en cada fila de una tabla se almacena junto. En una columnar, o base de datos orientada a columnas, se…

Las bases de datos del gráfico en un entorno de datos grande

La estructura fundamental de las bases de datos del gráfico de datos grande se llama " ganglios relación ". Esta estructura es más útil cuando hay que tratar con datos altamente interconectados. Los nodos y relaciones de apoyo propiedades, un…

Bases de datos par clave-valor en un entorno de datos grande

Por el momento, la más simple de las bases de datos en un entorno de grandes datos NoSQL (no de sólo-SQL) son las que emplean el modelo par clave-valor (KVP). Bases de datos KVP no requieren un esquema (como RDBMS) y ofrecen una gran flexibilidad…

Capa 2 de la pila de grandes datos: bases de datos operacionales

En el núcleo de cualquier entorno de datos grande, y la capa 2 de la pila de datos grande, son los motores de bases de datos que contienen las colecciones de elementos de datos relevantes para su negocio. Estos motores tienen que ser rápido,…

Bases de datos multidimensionales

Esta no es la primera vez en la historia reciente que han surgido y superar las ineficiencias RDBMS nuevos tipos de productos de base de datos. De vuelta en la década de 1980, se identificó una clase de aplicaciones en las que RDBMS productos…

Las bases de datos no relacionales en un entorno de datos grande

Las bases de datos no relacionales no se basan en la tabla / modelo clave endémica de RDBMS (sistemas de gestión de base de datos relacional). En resumen, los datos de la especialidad en el gran mundo de los datos requiere persistencia…

maniqui-es.com » Computadoras y software » Big Data » Ingeniería » Bases de datos de documentos en un entorno de datos grande