Procesamiento gráfico en hadoop

Uno de los más emocionantes tecnologías NoSQL emergentes implica el almacenamiento y procesamiento de datos del gráfico. Se podría pensar que esta declaración es noticia vieja porque los científicos informáticos han desarrollado técnicas de análisis gráfico durante décadas. Lo que usted dice bien puede ser cierto, pero lo que es nuevo es que mediante el uso de Hadoop, se puede hacer el análisis gráfico en una gran escala.

Conteúdo

Qué son los datos del gráfico?
Aplicaciones para el análisis gráfico
Análisis gráfico en hadoop

Qué son los datos del gráfico?

LA gráfico en términos de datos es simplemente una representación de las entidades individuales y sus relaciones. Entidades de un gráfico se conocen como nodos (o vértices), Y las relaciones entre las entidades en un gráfico se conocen como bordes (o conexiones). En representación de los conjuntos de datos en un gráfico, en lugar de filas y columnas tradicionales, hace que sea mucho más fácil de procesar sus datos en formas que hacen que las relaciones entre los objetos de cristal claro. Cálculos gráfico típico están representados por la distancia más corta trayectoria entre varios nodos en el gráfico, o simplemente por la cantidad de nodos tienen conexiones de un cierto tipo a un nodo específico.

Aplicaciones para el análisis gráfico

La aplicación más conocida de las bases de datos del gráfico es el algoritmo PageRank de Google, que calcula las relaciones que unen entre todas las páginas web conocidas. Google representa la web como un gráfico gigante, donde las páginas web son nodos y los enlaces de una página a otra se representan como bordes. (Google compartió la riqueza mediante la publicación de un artículo que describe su análisis del proyecto gráfico - etiquetada Pregel - volver en 2010.) El procesamiento gráfico que Google estaba interesado en implicó calcular el número de conexiones de entrada para cada página web.

Facebook causó sensación significativa en 2013, cuando anunció que estaba usando Apache Giraph (basado en el papel Pregel), un motor de procesamiento gráfico diseñado para procesar gráficos almacenados en HDFS. Demostró el poder de Giraph por mostrar un gráfico que representa a todos los usuarios de Facebook (más de 1 mil millones) y sus amistades (miles de millones!), Que en conjunto cuenta con más de 1 billón de bordes. Esta escala es asombrosa: Si eres de Facebook y que necesita para hacer cálculos como recomendaciones amigo, ¿qué mejor herramienta a utilizar que un motor de procesamiento gráfico? No es ninguna sorpresa que una base de datos gráfica distribuida se encuentra en el núcleo de cada otro sitio de medios sociales notables, incluyendo Twitter, LinkedIn, OkCupid, y Pinterest.

Un motor de procesamiento gráfico puede responder fácilmente a muchas preguntas prácticas para los sitios de medios sociales. Dos ejemplos son la forma en LinkedIn muestra los grados de separación entre usted y otro usuario es un cálculo del camino más corto (¿cuál es el vínculo más estrecho entre dos nodos?) Y cómo OkCupid muestra a los usuarios con intereses comunes es un conjunto de cálculos de filtrado colaborativo (¿cuáles son los más conexiones comunes a un conjunto específico de nodos?).

Análisis Gráfico en Hadoop

A partir de la primavera de 2014, el análisis gráfico de Hadoop permanece en sus etapas iniciales. Con la llegada de hilo en Hadoop 2, el análisis gráfico y otras técnicas de procesamiento especializados serán cada vez más populares en Hadoop. Muchos de los sitios sociales mencionados en este artículo utilizan sus propias, bases de datos del gráfico de propiedad y motores de procesamiento, pero Facebook es un usuario importante de Giraph. Porque (implícita) sello de aprobación de Facebook, Giraph se ha convertido en una opción popular para el análisis gráfico de Hadoop, pero tiene algunas limitaciones. Es únicamente un motor de procesamiento, ya que carga los datos en forma de gráfico en la memoria de la agrupación, y está optimizado para consultas por lotes orientada.

Otra solución de procesamiento gráfico que viene de Aurelio, una empresa que ha lanzado un conjunto de herramientas de código abierto gráfico-análisis para Hadoop. En el núcleo de su oferta es Titán, una base de datos gráfica utilizando HBase como una capa de persistencia, que está optimizado para las consultas interactivas, y Fauno, un motor de procesamiento gráfico que almacena una instantánea de un gráfico de Titan en HDFS y ejecuta trabajos de MapReduce en su contra . Tanto para el interactivo (Titán) y por lotes (Fauno) aplicaciones, Aurelio tiene el común de la API gráfica-recorrido llamado Gremlin.

Por último, el proyecto Spark Apache tiene la rama GraphX, lo que permite la generación de datos del gráfico, y luego procesado, todo dentro del marco de chispa.

Sobre el autor

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

Las bases de datos del gráfico en un entorno de datos grande

La estructura fundamental de las bases de datos del gráfico de datos grande se llama " ganglios relación ". Esta estructura es más útil cuando hay que tratar con datos altamente interconectados. Los nodos y relaciones de apoyo propiedades, un…

Filtrado de un gráfico dinámico de Excel 2007

Así como usted puede filtrar una tabla dinámica de Excel 2007 para mostrar un subconjunto de datos, también puede utilizar el panel gráfico dinámico Filtro para filtrar un gráfico dinámico para que muestre sólo la información que desea que…

Cómo filtrar tablas pivote en Excel 2013

Llegará el momento en que usted tendrá que filtrar los gráficos dinámicos en Excel 2013. Al graficar los datos en una tabla dinámica utilizando un tipo de gráfico típico, como columnas, barras, o línea, que utiliza tanto un x- e y- eje.Las…

Cómo mover un gráfico de Excel 2010 incrustado a su propia hoja de gráfico

Excel 2010 incorpora automáticamente los nuevos gráficos en la misma hoja de cálculo como los datos de origen, pero puede que le resulte más fácil trabajar con un gráfico si mueve el gráfico a su propia hoja de gráfico en el libro.1En la…

¿Cómo cambiar el tipo de gráfico en PowerPoint 2013

PowerPoint 2013 permite crear 14 tipos básicos de gráficos. Cada tipo transmite información con un énfasis diferente. Los datos de ventas trazados en un gráfico de columnas podrían destacar el desempeño relativo de las diferentes regiones,…

Cómo pegar datos de Excel en PowerPoint 2013 gráficos

Si los datos que desea trazar en PowerPoint 2013 ya existe en un libro de Excel, la forma más fácil de trazar en PowerPoint es crear primero el gráfico en Excel. A continuación, copie el gráfico en el portapapeles, cambiar a PowerPoint y pegar…

Pegar un gráfico de Excel en una presentación de PowerPoint 2007

Si desea mostrar los datos de Excel en un gráfico de PowerPoint, crear el gráfico en Excel. Copie la tabla, cambie a PowerPoint y pegar el gráfico en la diapositiva de PowerPoint. Al hacerlo, el gráfico aparece en PowerPoint exactamente como lo…

Powerpoint tablas 2007

Trazando en PowerPoint 2007 está estrechamente integrado con Excel 2007. Al insertar un gráfico en PowerPoint, Excel se inicia automáticamente, y los datos que a trazar se coloca en un libro de Excel. La carta y el libro hoja de datos se…

Colocación de un gráfico de Excel 2007 incrustado en su propia hoja de gráfico

Excel 2007 incorpora automáticamente los nuevos gráficos en la misma hoja de cálculo como los datos de origen, pero puede que le resulte más fácil trabajar con un gráfico si mueve el gráfico a su propia hoja de gráfico en el libro.1Haga clic…

Para las personas mayores: cómo identificar las partes de un gráfico de Excel

Cada parte de la tabla tiene un nombre, y aprender la jerga Microsoft Excel puede ayudarle a formatear las partes específicas. La siguiente lista señala algunas de las características clave de un gráfico:Área de gráfico: Toda la carta, que…

Cómo guardar y recuperar un gráfico en la TI-83 Plus

Si quieres un gráfico llamado a ser interactivo, es necesario guardarlo como una base de datos de gráfico en la TI-83 Plus. De esta manera la calculadora guarda los ajustes de modo de gráfico, Ventana, formato, e Y = Editor. No, sin embargo,…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Procesamiento gráfico en hadoop