10 razones para adoptar hadoop

Hadoop es una plataforma potente y flexible para el análisis de datos a gran escala. Esta declaración solo es una razón de peso para considerar el uso de Hadoop para sus proyectos de análisis. Para ayudar aún más inclinar la balanza, siguientes son diez razones de peso para desplegar Hadoop como parte de su solución de datos grande.

Hadoop es relativamente barato

El costo por terabyte para implementar un cluster Hadoop es más barato que el costo por terabyte de establecer un sistema de copia de seguridad en cinta. Por supuesto, un sistema Hadoop cuesta más de operar, debido a que las unidades de disco que sostienen los datos están en línea y potencia, a diferencia de las unidades de cinta. Pero esta métrica interesante aún muestra el valor potencial tremendo de una inversión en Hadoop.

La razón principal Hadoop es barato es su dependencia en el hardware de los productos básicos. Las soluciones tradicionales de gestión de datos empresariales dependen de los recursos costosos para asegurar una alta disponibilidad y rendimiento rápido.

Hadoop tiene una activa comunidad de código abierto

Cada vez que una organización invierte en un paquete de software, un factor clave es la relevancia a largo plazo del software que compró. Ninguna empresa quiere comprar licencias de software y desarrollar habilidades específicas en torno a las tecnologías que serán ya sea obsoleta o irrelevante en los próximos meses y años.

En ese sentido, no es necesario que preocuparse de Hadoop. El proyecto Hadoop está en el camino de la adopción y la relevancia a largo plazo. Sus principales proyectos tienen docenas de committers y cientos de desarrolladores que contribuyen código. Aunque algunas de estas personas son académicos o aficionados, la mayoría de ellos son pagados por las compañías de software empresarial para ayudar a crecer la plataforma Hadoop.

Hadoop está siendo ampliamente adoptado en todas las industrias

Al igual que con la adopción de la tecnología de base de datos relacional de la década de 1980 y en adelante, las soluciones Hadoop están surgiendo en todas las industrias. La mayoría de las empresas con problemas de gestión de la información a gran escala están explorando seriamente Hadoop. Amplio consenso de historias de los medios y los informes de analistas ahora indican que casi cada compañía Fortune 500 se ha embarcado en un proyecto Hadoop.

Hadoop puede escalar fácilmente como sus datos crece

El aumento de los volúmenes de datos son un desafío de datos grande generalizado ahora enfrentan las organizaciones. En entornos altamente competitivos donde la analítica es cada vez más el factor decisivo en la determinación de los ganadores y perdedores, siendo capaz de analizar los crecientes volúmenes de datos se está convirtiendo en una prioridad.

Incluso ahora, la mayoría de las herramientas tradicionales de procesamiento de datos, tales como bases de datos y paquetes estadísticos, requieren hardware de mayor escala (más memoria, disco y núcleos de CPU) para manejar los volúmenes de datos cada vez mayores. Este enfoque ampliación es limitante y costo-efectiva, dada la necesidad de componentes caros.

En contraste con el modelo de ampliación, donde se añade más rápido y más alto de hardware capacidad de un único servidor, Hadoop está diseñado para escalar con facilidad mediante la adición de nodos de datos. Estos nodos de datos, lo que representa un aumento de la capacidad de almacenamiento del clúster y potencia de procesamiento, se pueden añadir fácilmente sobre la marcha para un clúster activo.

Las herramientas tradicionales están integrando con Hadoop

Con el aumento de la adopción, las empresas están llegando a depender de Hadoop y lo utilizan para almacenar y analizar los datos críticos. Con esta tendencia viene un apetito por los mismos tipos de herramientas de gestión de datos que la gente está acostumbrada a tener a sus fuentes de datos tradicionales, tales como una base de datos relacional. Estas son algunas de las categorías de aplicaciones más importantes donde se puede ver la integración con Hadoop:

  • Herramientas de análisis de negocios

  • Paquetes de análisis estadístico

  • Herramientas de integración de datos

Hadoop puede almacenar datos en cualquier formato

Una característica de Hadoop refleja un principio clave NoSQL: Datos tienda primero, y aplicar los esquemas después de que se consulta. Uno de los principales beneficios que se acumulen a Hadoop de actuar de acuerdo con este principio es que usted puede almacenar literalmente cualquier tipo de datos en Hadoop: completamente estructurada, formatos binarios, archivos de registro semiestructuradas o datos relacionales.

Pero junto con esta flexibilidad viene una maldición: Después de almacenar los datos, que finalmente desea analizar - y el análisis de datos desordenados puede ser difícil y requiere mucho tiempo. La buena noticia es que un número creciente de herramientas pueden mitigar los retos de análisis comúnmente visto en grandes conjuntos de datos, desordenado.

Hadoop está diseñado para ejecutar análisis complejos

Usted no sólo puede almacenar casi cualquier cosa en Hadoop, sino también ejecutar casi cualquier tipo de algoritmo contra esos datos. Los modelos de aprendizaje automático y bibliotecas incluidas en Apache Mahout son los principales ejemplos, y pueden ser utilizados para una variedad de problemas sofisticadas, incluyendo la clasificación de elementos sobre la base de un gran conjunto de datos de entrenamiento.

Hadoop puede procesar un conjunto de datos completo

Para los tipos de fraude de análisis de casos de uso, los datos de la industria de múltiples fuentes indican que menos del 3 por ciento de todas las devoluciones y reclamaciones son auditadas. Por supuesto, en muchas circunstancias, como el sondeo electoral, el análisis de pequeños conjuntos de muestras de los datos es útil y suficiente.

Pero cuando el 97 por ciento de los retornos y reclamaciones no han sido auditados, incluso con buenas normas de muestreo, todavía ocurren muchas devoluciones fraudulentas. Al ser capaz de ejecutar análisis de fraude en contra de todo el corpus de datos, ahora la oportunidad de decidir si se debe probar.

Hardware está siendo optimizado para Hadoop

Intel es ahora un jugador en el mercado de distribución de Hadoop. Esta jugada de Intel era un sagaz porque su trabajo de distribución muestra la seriedad y compromiso por detrás de sus esfuerzos de integración de código abierto.

Con Hadoop, Intel ve una tremenda oportunidad de vender más hardware. Después de todo, los clusters Hadoop se pueden caracterizar por cientos de nodos, todos los procesadores que requieren, placas base, memoria RAM y discos duros. Intel ha estado invirtiendo fuertemente en la comprensión de Hadoop para que se pueda construir optimizaciones de hardware Intel-específicos que sus colaboradores Hadoop pueden integrarse en proyectos de Hadoop de código abierto.

Otros proveedores de hardware más importantes (como IBM, Dell y HP) también están trayendo activamente oferta Hadoop-amigables al mercado.

Hadoop puede manejar cargas de trabajo cada vez más flexibles

Durante los cuatro años previo a la liberación de Hadoop 2, una gran parte de la atención se dirige a resolver el problema de tener un único punto de fallo (SPOF) con el HDFS NameNode. Aunque este éxito particular era, sin duda, una importante mejora, ya que hizo mucho para permitir la estabilidad de la empresa, HILO es un desarrollo mucho más significativo.

Hasta Hadoop 2, el único procesado que se podía hacer en un clúster Hadoop fue restringida al marco MapReduce. Esto era aceptable para los análisis de registro de casos de uso que Hadoop fue construido originalmente para, pero con una mayor adopción llegó la necesidad real de una mayor flexibilidad.




» » » » 10 razones para adoptar hadoop