10 Nuevas tecnologías de Hadoop para mantener el ojo en

Con Hadoop golpear la corriente principal de TI con una venganza, proyectos de código abierto relacionados con Hadoop están apareciendo por todas partes. Aquí están los diez más interesantes proyectos Hadoop emergente para que usted pueda mantener el ojo en. Algunos de ellos bien podría estancarse y morir en silencio si un reemplazo superiores iban a venir, pero la mayoría de estos especímenes evolutivos probablemente se convertirán en componentes estándar en la mayoría de distribuciones de Hadoop.

Esta lista se centra en los proyectos de la comunidad Apache porque este ecosistema ha sido aquel en el que la mayoría de los principales proyectos de Hadoop existentes están desarrollado y mantenido. Además, los proyectos de Apache tienen criterios de gobierno sólidas que promuevan un proceso de desarrollo abierto en el que las contribuciones de sus miembros son juzgados por su mérito técnico y no en una agenda corporativa.

Accumulo

Apache Accumulo es un proyecto de almacenamiento de datos para Hadoop, originalmente desarrollado por la Agencia de Seguridad Nacional (NSA) del gobierno de los Estados Unidos. Accumulo es una implementación BigTable para Hadoop. Específicamente, Accumulo es un mapa ordenado multidimensional, donde cada fila tiene una clave única, las filas se almacenan en forma ordenada en base a esta clave, y cada fila puede tener múltiples versiones (en otras palabras, dimensiones).

Hubo mucho interés por la NSA en el uso de HBase como almacén de datos a gran escala, pero no cumplió con los requisitos de seguridad interna de la NSA. Ingenieros NSA luego construyeron Accumulo como su propia implementación BigTable y posteriormente contribuyeron a la comunidad Apache. El proyecto Accumulo ha crecido desde una comunidad de desarrollo activo, con los contribuyentes de un número de diferentes organizaciones - no sólo los tipos de la NSA, en otras palabras. Accumulo, ahora con el apoyo de varios de los principales proveedores de Hadoop, es ver a una tasa creciente adopción.

La característica importante distinguir Accumulo de otras implementaciones BigTable es la seguridad basada en células, que asegura que sólo los usuarios autorizados pueden ver los datos almacenados en las filas consultados. Esto se implementa a través de las etiquetas de seguridad, que se almacenan en cada fila.

Taladro

Un número de emergentes y compiten tecnologías están por ahí tratando de resolver el problema de SQL-on-Hadoop. Aunque la mayoría de estas tecnologías son soluciones de la empresa individual, algunos de ellos son impulsado por la comunidad, con Hive el ejemplo más destacado. Apache Taladro se inspira en el papel de Google Dremel, que presenta un diseño para un sistema interactivo que puede consultar los datos almacenados en un sistema de archivos distribuido como HDFS y no tener que depender de MapReduce. El objetivo del diseño de taladro es ser capaz de escalar a miles de servidores y ofrecer tiempos de respuesta subminute para las consultas que operan con los datos petabyte escala.

A partir de la primavera de 2014, Taladro sigue siendo un proyecto de incubadora de Apache, lo que significa que aún no ha sido aceptada como un proyecto en toda regla Apache y todavía es el establecimiento de una base de código estable y gestión del proyecto. Pero tiene un gran potencial, por lo que no se sorprenda si hace su manera de salir de la incubadora pronto.

Falcon

Con la creciente integración de Hadoop en entornos de almacenamiento de datos, la industria está experimentando una importante necesidad de capacidades de integración y de gobernanza de datos en Hadoop. Los enfoques actuales para la integración de los datos y el cumplimiento de los criterios de gobierno implican estas dos opciones:

  • Comprar tales herramientas de los vendedores establecidos como IBM e Informatica.

  • Escribe extensas bibliotecas de código personalizado.

Esto es lo que el proyecto Apache Falcon tiene el objetivo de hacer frente a un conjunto de servicios de gestión de datos construidos específicamente para Hadoop. Como Taladro, Falcon es un proyecto de incubadora de Apache.

Los servicios de gestión de datos en Falcon se centran principalmente en la gestión de movimiento de datos y transformación de datos. Si usted no está familiarizado con el manejo de los datos entre las bases de datos transaccionales y bases de datos de almacén, este proceso de movimiento y transformación de datos se conoce comúnmente como extracción, transformación y carga (ETL). Como parte del marco para el manejo de los procesos ETL, Falcon incluye la capacidad de almacenar los metadatos de los datos a medida que se pasa a través de las diferentes etapas de ETL. Falcon entonces puede proporcionar servicios para la gestión del ciclo de vida de los datos (por ejemplo, la ejecución de las políticas de retención), replicación de datos, y el seguimiento de linaje de datos.

Giraph

Hadoop es bastante bueno en el almacenamiento y procesamiento de datos en tablas tradicionales (Colmena) y en el estilo BigTable más reciente (HBase y Accumulo), pero en muchos casos, las estructuras de almacenamiento de datos alternativos son más adecuados para la tarea en cuestión. Datos de gráfico se ve muy diferente de datos de la tabla: No tiene filas o columnas. No es simplemente un gráfico, donde los nodos individuales (también conocido como vértices) Están conectados entre sí por los bordes.

Piense en esto: Uno enormes retos técnicos que Google se enfrenta es averiguar la mejor manera de calcular el ranking de resultados de búsqueda. Un factor que en este es determinar cómo las páginas web individuales populares son, según la cantidad de enlaces entrantes provienen de otras páginas web. Con mucho, la forma más práctica para calcular esto para todas las páginas es representar toda la World Wide Web como un gráfico, donde las páginas son los nodos y los enlaces son los vértices. Para capturar su trabajo de base de datos gráfica, Google publicó un documento sobre su base de datos gráfica, que lleva el nombre Pregel.

Apache Giraph, un motor de procesamiento gráfico que se basa en el papel Pregel y fue construido específicamente para Hadoop, puede leer y escribir datos de un número de fuentes de Hadoop estándar, incluyendo Colmena, HBase y Accumulo.

La comunidad Giraph es bastante grande y diversa, con committers código de una serie de organizaciones, incluyendo Facebook, Twitter y LinkedIn. Giraph está firmemente establecido como el motor principal de procesamiento gráfico para Hadoop, en términos de madurez código, el rendimiento y la adopción. Vendedores Major Hadoop están apoyando Giraph y es probable que incluirlo. (El proyecto Apache Bigtop ya lo hace.)

Knox pasarela

Como un sistema distribuido con cientos o miles de ordenadores individuales, grupos de Hadoop son la pesadilla de un administrador de seguridad. Para empeorar las cosas, los nodos de cálculo en un cluster Hadoop todos tienen múltiples servicios que hablan el uno al otro y, en algunos casos, requiere conectividad directa con las aplicaciones cliente. Sume todos estos factores y que tiene una superficie masiva de ordenadores con puertos abiertos que usted necesita para proteger. Para resolver este problema, Hortonworks ha iniciado el proyecto Apache Knox Gateway, que todavía está en sus primeros días como un proyecto de incubadora de Apache.

El principal objetivo de Knox Gateway es proporcionar seguridad perimetral para clusters Hadoop. Esto se logra al proporcionar un punto central para la autenticación del clúster en el borde de un cluster Hadoop. Fuera del propio clúster, Knox pasarela maneja todas las solicitudes entrantes de cliente a un grupo que está custodiando y luego rutas solicitudes válidas a la de servicio apropiado en el cluster Hadoop. En este sentido, Knox Gateway es, literalmente, una pasarela segura para todas las comunicaciones entre el clúster Hadoop y el mundo exterior. Knox gateway permite a los administradores de red para aislar el cluster Hadoop del mundo exterior, porque mientras los servidores de puerta de enlace Knox están activos, los clientes tienen una conexión segura a sus servicios de Hadoop.

Samza

Un aspecto interesante de hilo es la posibilidad de ejecutar diferentes tipos de cargas de trabajo en un clúster Hadoop. Con MapReduce, que está limitado a procesamiento por lotes, pero con las nuevas tecnologías como Spark y Tez (que se habla más adelante) y el ya mencionado Taladro, Hadoop podrá apoyar consultas interactivas también. Otra clase de carga de trabajo es la transmisión de datos, que es lo que el proyecto Apache Samza pretende abordar. (Datos Streaming trabaja para manejar los datos en tiempo real, en lugar de confiar en el stop-and-go los aspectos de procesamiento por lotes.)

El proyecto Samza fue iniciada por los ingenieros de LinkedIn, que necesitan un motor de datos en streaming. En lugar de mantener su código interno, los ingenieros de LinkedIn están desarrollando Samza en la comunidad de código abierto Apache. En el momento de escribir estas líneas, Samza todavía está en sus primeros días como un proyecto de incubadora de Apache. Aunque existen motores de otros datos de streaming (como Spark Streaming y la tormenta, se discute más adelante), el equipo de LinkedIn decidió construir su propio motor que mejor se adapte a sus necesidades.

Sentry

La sección sobre el proyecto Knox pasarela arriba cuenta con algunos de los desafíos de seguridad con Hadoop. Aunque Knox pasarela se ocupa de la autorización del sistema (garantizando que los usuarios pueden conectarse a los servicios del cluster Hadoop), no se ocupa de la apremiante necesidad de la autorización de datos, donde existen necesidades empresariales para restringir el acceso a subconjuntos de datos. Un ejemplo común es la necesidad de ocultar tablas que contienen datos confidenciales, como números de tarjetas de crédito de los analistas que buscan patrones de comportamiento. El proyecto Apache Sentry fue iniciado por Cloudera como una manera de proporcionar este tipo de control de acceso a los datos almacenados en su proyecto Impala y en la colmena. A partir de la primavera de 2014, Sentry es un proyecto de incubadora de Apache.

Sentry introduce el concepto de diferentes clases de roles de usuario para Hadoop al tiempo que permite la clasificación de los activos de datos en Impala o colmena. En función de la clasificación que se aplica en el nivel de base de datos, tabla o vista, sólo los usuarios con los roles apropiados serían capaces de acceder a los datos.

Chispazo

El proyecto Spark Apache se convirtió rápidamente en un nombre familiar (por lo menos en Hadoop hogares) en 2014 cuando se convirtió en un proyecto de nivel superior de Apache (es decir, que se graduó en el estado incubadora) y una serie de empresas de distribución de Hadoop se alinearon para anunciar el apoyo. Spark, como marco de computación cluster, es otro proyecto que está realizando el enorme potencial HILO trae a Hadoop en el apoyo a los diferentes marcos de procesamiento de datos.

Spark fue originalmente desarrollado por investigadores de la Universidad de Berkeley, que creó los Databricks compañía de nuevo en 2013 para comercializarlo, ganando rápidamente $ 14 millones en fondos de capital de riesgo.

El entusiasmo en torno a Spark se debe a su relativa simplicidad en comparación con MapReduce y su flexibilidad mucho mayor para los flujos y las cargas de trabajo interactivas. En más contraste con MapReduce, Spark hace su procesamiento de datos en memoria, lo que produce considerables ventajas de rendimiento. Al mismo tiempo, se puede procesar grandes conjuntos de datos que no caben en la memoria desde el disco, pero aún así proporciona beneficios de rendimiento porque la chispa no necesita adherirse al mapa rígida de MapReduce y reducir los ciclos, que a menudo no son óptimas para muchos algoritmos.

Como marco general, Spark tiene una serie de proyectos de niño para el procesamiento de datos más especializados: Spark Streaming para la transmisión de datos en tiempo real feeds- tiburón, para SQL interactivo queries- Machine Learning Library (MLlib) para la máquina de aprendizaje- y GraphX ​​para el procesamiento gráfico .

Tempestad

Apache Storm es el tercer motor de análisis de flujo de datos que abarca este artículo (con Samza y Spark Streaming como los otros dos), que es un testimonio de lo mucho la atención analítica en tiempo real está consiguiendo en la comunidad Hadoop. Pero estos enfoques divergentes son también indicios de que aún es temprano en la evolución de la transmisión de análisis de datos en Hadoop, porque ninguno de los tres se ha convertido en un líder. Tormenta ha sido un proyecto activo por más tiempo, habiendo sido donado a la comunidad de código abierto después de ser adquirida por Twitter en 2011. Tormenta ahora un proyecto de incubadora de Apache.

Gracias al trabajo de los desarrolladores Hortonworks que trajeron en la comunidad Apache, la tormenta fue reforzado para trabajar con el marco HILO. Esto trajo la tormenta en el ecosistema Hadoop como una alternativa procesamiento en tiempo real.

Tez

Similar a lo que ocurre con los motores de análisis de datos de streaming, una serie de alternativas han surgido con MapReduce para el procesamiento distribuido interactiva. Spark es un ejemplo destacado de estos marcos. El otro ejemplo destacado de este marco es Apache Tez, que es impulsado en gran medida por Hortonworks.

La solución Hortonworks al desafío SQL-on-Hadoop es mejorar la colmena. Para afrontar este reto, Hortonworks anunció su iniciativa Stinger, que involucró a una serie de cambios en la colmena, que implican un mejor soporte para los estándares ANSI SQL y mucho mejor rendimiento. Una limitación clave en la colmena es su dependencia de MapReduce para consultas de procesamiento. MapReduce es limitado en su capacidad para hacer frente a las operaciones comunes de SQL tales como uniones y grupos apartaderos, lo que resulta en muy mal rendimiento en comparación con las alternativas de bases de datos relacionales masivamente paralelas que funcionan a gran escala comparable. Hortonworks anunció el proyecto Tez para presentar un marco alternativo para MapReduce, que está optimizado para más óptimas (y flexibles) posibilidades de procesamiento de datos. Tez también se utilizará como el marco subyacente para el cerdo.




» » » » 10 Nuevas tecnologías de Hadoop para mantener el ojo en