La comparación de las distribuciones de Hadoop

Usted encontrará que el ecosistema Hadoop tiene muchos componentes, todos los cuales existen como sus propios proyectos de Apache. Debido Hadoop ha crecido considerablemente, y se enfrenta a algunos otros cambios importantes, diferentes versiones de estos componentes de la comunidad de código abierto podrían no ser totalmente compatibles con otros componentes. Esto plantea dificultades considerables para las personas que buscan obtener un comienzo independiente con Hadoop descargando y compilando proyectos directamente de Apache.

Red Hat es, para muchas personas, el modelo de cómo hacer correctamente el dinero en el mercado de software de código abierto. Lo que Red Hat ha hecho es tomar Linux (un sistema operativo de código abierto), agrupar todos sus componentes necesarios, construir un instalador simple, y proporcionar apoyo prestado a cualquier cliente.

De la misma forma que Red Hat ha proporcionado un envase práctico para Linux, una serie de empresas han incluido Hadoop y algunas tecnologías relacionadas en sus propias distribuciones de Hadoop. Esta lista describe los más destacados:

  • Cloudera: Tal vez el jugador más conocido en el campo, Cloudera es capaz de reclamar corte Doug, co-fundador de Hadoop, como su principal arquitecto. Cloudera es visto por muchos como el líder del mercado en el espacio de Hadoop, ya que lanzó la primera distribución de Hadoop comercial y es un colaborador muy activo de código para el ecosistema Hadoop.

    Cloudera empresa, un producto posicionado por Cloudera en el centro de lo que llama el " Enterprise Data Hub, " incluye la distribución de Cloudera Hadoop (CDH), una distribución basada en código abierto de Hadoop y sus proyectos conexos, así como su propio Administrador de Cloudera. También se incluye una suscripción de soporte técnico para los componentes básicos de la CDH.

    Modelo de negocio principal de Cloudera mucho tiempo se ha basado en su capacidad para aprovechar su popular distribución CDH y proporcionar servicios y soporte pagados. En el otoño de 2013, Cloudera anunció formalmente que se centra en la adición de componentes de valor agregado de propiedad en la parte superior de código abierto Hadoop para actuar como un elemento diferenciador.

    También, Cloudera ha convertido en una práctica común para acelerar la adopción del código fuente alfa y de nivel de beta abierta para la nueva Hadoop libera. Su enfoque es tomar componentes que considere ser maduro y readaptar ellas en las bibliotecas de código abierto listos para la producción existentes que se incluyen en su distribución.

  • EMC: HD Pivotal, la distribución de Hadoop de EMC, se integra de forma nativa procesamiento (MPP) la tecnología de EMC masivamente paralelo de base de datos (anteriormente conocido como Greenplum, y ahora conocido como HAWQ) con Hadoop. El resultado es una distribución de Hadoop de alto rendimiento con verdadero procesamiento SQL para Hadoop. Consultas basadas en SQL y otras herramientas de inteligencia de negocios se pueden utilizar para analizar los datos que se almacenan en HDFS.

  • Hortonworks: Otro jugador importante en el mercado de Hadoop, Hortonworks tiene el mayor número de committers y contribuyentes de código de los componentes del ecosistema Hadoop. (Committers son los guardianes de los proyectos de Apache y tienen la facultad de aprobar cambios en el código.)

    Hortonworks es un spin-off de Yahoo !, que era el conductor corporativa original del proyecto Hadoop porque necesitaba una plataforma a gran escala para apoyar su negocio de los motores de búsqueda. De todos los proveedores de distribución de Hadoop, Hortonworks es el más comprometido con el movimiento de código abierto, basado en el volumen de trabajo de desarrollo que contribuye a la comunidad, y porque todos sus esfuerzos de desarrollo son (con el tiempo) doblado en la base de código de fuente abierta.

    El modelo de negocio Hortonworks se basa en su capacidad de aprovechar su popular distribución HDP y proporcionar servicios y soporte pagados. Sin embargo, no se vende software propietario. Más bien, la compañía apoya con entusiasmo la idea de trabajar dentro de la comunidad de código abierto para desarrollar soluciones que abordan los requisitos de características de la empresa (por ejemplo, procesamiento de consultas más rápido con Colmena).

    Hortonworks ha forjado una serie de relaciones con las empresas establecidas en la industria de gestión de datos: Teradata, Microsoft, Informatica, y SAS, por ejemplo. Aunque estas empresas no tienen sus propias ofrendas, Hadoop en-casa, colaborar con Hortonworks para proporcionar soluciones integradas de Hadoop con sus propios conjuntos de productos.

    La oferta Hortonworks Hadoop es la Plataforma de Datos Hortonworks (HDP), que incluye Hadoop, así como herramientas y proyectos relacionados. También a diferencia de Cloudera, Hortonworks libera versiones HDP sólo con código de nivel de producción de la comunidad de código abierto.

  • IBM: Big Blue ofrece una gama de ofertas de Hadoop, con el enfoque en torno a un valor añadido en la parte superior de la pila de Hadoop de código abierto.

  • Intel: La distribución de Intel para Hadoop (Intel Distribución) provee el procesamiento y gestión de datos distribuida para aplicaciones empresariales que analizan los grandes datos.

    Las características clave incluyen un excelente rendimiento con optimizaciones para procesadores Intel Xeon, Intel SSD de almacenamiento y seguridad de los datos de Intel 10GbE Redes- través de cifrado y descifrado en HDFS y control de acceso basado en roles con granularidad a nivel celular en HBase- mejoró la performance de soporte consulta Colmena para el análisis estadístico con un conector para la I, el popular paquete- estadístico de código abierto y los gráficos de análisis a través de Intel Gráfico constructor.

  • MapR: Para una distribución completa para Hadoop y proyectos relacionados que es independiente de la Apache Software Foundation, no busque más MapR. Con ninguna dependencia de Java o la confianza en el sistema de archivos de Linux, MapR está siendo promovido como la única distribución de Hadoop que proporciona protección completa de datos, sin puntos únicos de fallo y significativas ventajas de facilidad de uso.

    Tres ediciones MAPR están disponibles: M3, M5 y M7. El M3 Edition es gratuito y está disponible para la producción ilimitada uso- MapR M5 es un software de suscripción de nivel intermedio offering- y MapR M7 es una distribución completa para Hadoop y HBase que incluye cerdo, Colmena, Sqoop, y mucho más.




» » » » La comparación de las distribuciones de Hadoop