¿Cómo elegir una distribución de Hadoop

Distribuciones de Hadoop Comercial ofrecen varias combinaciones de componentes de código abierto de Apache Software Foundation y otros lugares - la idea es que los distintos componentes se han integrado en un solo producto, que le ahorra el esfuerzo de tener que montar su propio conjunto de componentes integrados. Además de software de código abierto, los vendedores suelen ofrecer software propietario, el apoyo, servicios de consultoría y capacitación.

¿Cómo usted va sobre la elección de una distribución de Hadoop de las numerosas opciones que están disponibles? Cuando se trata de la creación de su propio entorno, que eres el que tiene que elegir, y que la elección debe basarse en un conjunto de criterios diseñados para ayudarle a tomar la mejor decisión posible.

No todas las distribuciones de Hadoop tener los mismos componentes (aunque todos ellos tienen capacidades básicas de Hadoop), y no todos los componentes en una sola distribución particular son compatibles con otras distribuciones.

Los criterios de selección de la distribución más adecuada pueden articularse como esta serie de preguntas importantes:

  • ¿Qué es lo que quiere lograr con Hadoop?

  • ¿Cómo se puede utilizar Hadoop para obtener una perspectiva de negocios?

  • ¿Qué problemas de negocios es lo que quieres resolver?

  • ¿Qué datos se analizarán?

  • ¿Estás dispuesto a utilizar componentes propietarios, o preferís las ofertas de código abierto?

  • ¿Es la infraestructura Hadoop que usted está pensando en lo suficientemente flexible como para todos sus casos de uso?

  • ¿Qué herramientas existente que desee integrarse con Hadoop?

  • ¿Sus administradores necesitan herramientas de gestión? (Distribución central de Hadoop no incluye herramientas administrativas.)

  • Será la ofrenda que elija le permiten mover a un producto diferente sin obstáculos tales como los proveedores de tecnología? (Código de aplicación que no es transferible a otras distribuciones o los datos almacenados en formatos propietarios representan buenos ejemplos de lock-in.)

  • ¿Va la distribución usted está pensando en satisfacer sus necesidades futuras, en la medida en que es capaz de anticipar esas necesidades?

Un enfoque para distribuciones que comparaban es crear una matriz de características - una tabla que detalla las especificaciones y características de cada distribución que está considerando. Su elección, entonces puede depender del conjunto de características y especificaciones que mejor responde a las necesidades de todo sus problemas de negocio específicos.

Por otro lado, si sus necesidades incluyen la creación de prototipos y la experimentación, la elección de la distribución de Apache Hadoop última oficial podría llegar a ser el mejor enfoque. Las versiones más recientes sin duda tienen las nuevas características más interesantes, pero si quieres una estabilidad que no quieren emoción. Para la estabilidad, busque una rama versión anterior que ha estado disponible el tiempo suficiente para tener algunas versiones incrementales (éstos suelen incluir correcciones de errores y características de menor importancia).

Cada vez que se piensa en código abierto distribuciones de Hadoop, darle un momento de reflexión (o tal vez el pensamiento de muchos momentos ') al concepto de la fidelidad de código abierto - el grado en que una distribución particular es compatible con los componentes de código abierto de los que depende. Alta fidelidad facilita la integración con otros productos que están diseñados para ser compatibles con los componentes de código abierto. Bajo la fidelidad? No demasiado.

El enfoque de código abierto para el propio desarrollo de software es una parte importante de su Hadoop planes, ya que promueve la compatibilidad con una gran cantidad de herramientas de terceros que puede aprovechar en su propio despliegue de Hadoop. El enfoque de código abierto permite también el compromiso con la comunidad Hadoop, que le da, a su vez, la oportunidad de acceder a una piscina más profunda de las habilidades y la innovación para enriquecer su experiencia de Hadoop.

Debido Hadoop es un ecosistema de rápido crecimiento, algunas partes siguen madurando ya que la comunidad desarrolla herramientas para satisfacer las demandas de la industria. Un aspecto de esta evolución es conocido como backporting, donde se aplica una nueva modificación de software o parches a una versión del software que es más antigua que la versión a la que el parche se aplica.

Un ejemplo es la conmutación por error NameNode: Esta capacidad es una parte de Hadoop 2 pero fue portado (en su forma beta) por una serie de distribuciones en sus ofertas basadas en Hadoop-1 por hasta un año antes de Hadoop 2 se convirtió en general disponible.

No todas las distribuciones se involucra activamente en backporting nuevos contenidos en la misma medida, aunque la mayoría lo hacen por elementos tales como correcciones de errores. Si desea una licencia de producción para la tecnología de sangrado de punta, esta es sin duda una opción- para la estabilidad, sin embargo, no es una buena idea.

La mayoría de las distribuciones de Hadoop incluye código propietario de algún tipo, que con frecuencia se presenta en forma de instaladores y un conjunto de herramientas de gestión. Estas distribuciones generalmente surgen de diferentes modelos de negocio.

Por ejemplo, un modelo de negocio puede resumirse de este modo: " establecerse como un líder de código abierto y pionero, el mercado de su empresa como tener la mejor experiencia, y vender esa experiencia como un servicio ". Red Hat, Inc. es un ejemplo de un proveedor que utiliza este modelo.

En contraste con este enfoque, el e-extender abrazo modelo de negocio tiene vendedores que construyen capacidades que amplían las capacidades del software de código abierto. MapR e IBM, que ambos ofrecen los sistemas de archivos alternativos al sistema de archivos distribuido Hadoop (HDFS), son buenos ejemplos.

La gente a veces erróneamente tiran la " tenedor " etiquetar a estas innovaciones, haciendo uso de la jerga utilizada por los programadores de software para describir situaciones en las que alguien toma una copia de un programa de código abierto como el punto de partida para su propio desarrollo (independiente).

Los sistemas de archivos alternativos ofrecidos por MapR e IBM son completamente diferentes sistemas de archivos, y no una bifurcación del código abierto HDFS. Ambas compañías permiten a sus clientes a elegir su sistema de archivos distribuido propiedad o HDFS. Sin embargo, en este enfoque, la compatibilidad es crítica, y el vendedor debe estar al día con las interfaces en evolución. Los clientes necesitan saber que los vendedores pueden ser invocados en apoyo de sus extensiones.




» » » » ¿Cómo elegir una distribución de Hadoop