10 razones para adoptar hadoop

Hadoop es una plataforma potente y flexible para el análisis de datos a gran escala. Esta declaración solo es una razón de peso para considerar el uso de Hadoop para sus proyectos de análisis. Para ayudar aún más inclinar la balanza, siguientes son diez razones de peso para desplegar Hadoop como parte de su solución de datos grande.

Conteúdo

Hadoop es relativamente barato
Hadoop tiene una activa comunidad de código abierto
Hadoop está siendo ampliamente adoptado en todas las industrias
Hadoop puede escalar fácilmente como sus datos crece
Las herramientas tradicionales están integrando con hadoop
Hadoop puede almacenar datos en cualquier formato
Hadoop está diseñado para ejecutar análisis complejos
Hadoop puede procesar un conjunto de datos completo
Hardware está siendo optimizado para hadoop
Hadoop puede manejar cargas de trabajo cada vez más flexibles

Hadoop es relativamente barato

El costo por terabyte para implementar un cluster Hadoop es más barato que el costo por terabyte de establecer un sistema de copia de seguridad en cinta. Por supuesto, un sistema Hadoop cuesta más de operar, debido a que las unidades de disco que sostienen los datos están en línea y potencia, a diferencia de las unidades de cinta. Pero esta métrica interesante aún muestra el valor potencial tremendo de una inversión en Hadoop.

La razón principal Hadoop es barato es su dependencia en el hardware de los productos básicos. Las soluciones tradicionales de gestión de datos empresariales dependen de los recursos costosos para asegurar una alta disponibilidad y rendimiento rápido.

Hadoop tiene una activa comunidad de código abierto

Cada vez que una organización invierte en un paquete de software, un factor clave es la relevancia a largo plazo del software que compró. Ninguna empresa quiere comprar licencias de software y desarrollar habilidades específicas en torno a las tecnologías que serán ya sea obsoleta o irrelevante en los próximos meses y años.

En ese sentido, no es necesario que preocuparse de Hadoop. El proyecto Hadoop está en el camino de la adopción y la relevancia a largo plazo. Sus principales proyectos tienen docenas de committers y cientos de desarrolladores que contribuyen código. Aunque algunas de estas personas son académicos o aficionados, la mayoría de ellos son pagados por las compañías de software empresarial para ayudar a crecer la plataforma Hadoop.

Hadoop está siendo ampliamente adoptado en todas las industrias

Al igual que con la adopción de la tecnología de base de datos relacional de la década de 1980 y en adelante, las soluciones Hadoop están surgiendo en todas las industrias. La mayoría de las empresas con problemas de gestión de la información a gran escala están explorando seriamente Hadoop. Amplio consenso de historias de los medios y los informes de analistas ahora indican que casi cada compañía Fortune 500 se ha embarcado en un proyecto Hadoop.

Hadoop puede escalar fácilmente como sus datos crece

El aumento de los volúmenes de datos son un desafío de datos grande generalizado ahora enfrentan las organizaciones. En entornos altamente competitivos donde la analítica es cada vez más el factor decisivo en la determinación de los ganadores y perdedores, siendo capaz de analizar los crecientes volúmenes de datos se está convirtiendo en una prioridad.

Incluso ahora, la mayoría de las herramientas tradicionales de procesamiento de datos, tales como bases de datos y paquetes estadísticos, requieren hardware de mayor escala (más memoria, disco y núcleos de CPU) para manejar los volúmenes de datos cada vez mayores. Este enfoque ampliación es limitante y costo-efectiva, dada la necesidad de componentes caros.

En contraste con el modelo de ampliación, donde se añade más rápido y más alto de hardware capacidad de un único servidor, Hadoop está diseñado para escalar con facilidad mediante la adición de nodos de datos. Estos nodos de datos, lo que representa un aumento de la capacidad de almacenamiento del clúster y potencia de procesamiento, se pueden añadir fácilmente sobre la marcha para un clúster activo.

Las herramientas tradicionales están integrando con Hadoop

Con el aumento de la adopción, las empresas están llegando a depender de Hadoop y lo utilizan para almacenar y analizar los datos críticos. Con esta tendencia viene un apetito por los mismos tipos de herramientas de gestión de datos que la gente está acostumbrada a tener a sus fuentes de datos tradicionales, tales como una base de datos relacional. Estas son algunas de las categorías de aplicaciones más importantes donde se puede ver la integración con Hadoop:

Herramientas de análisis de negocios
Paquetes de análisis estadístico
Herramientas de integración de datos

Hadoop puede almacenar datos en cualquier formato

Una característica de Hadoop refleja un principio clave NoSQL: Datos tienda primero, y aplicar los esquemas después de que se consulta. Uno de los principales beneficios que se acumulen a Hadoop de actuar de acuerdo con este principio es que usted puede almacenar literalmente cualquier tipo de datos en Hadoop: completamente estructurada, formatos binarios, archivos de registro semiestructuradas o datos relacionales.

Pero junto con esta flexibilidad viene una maldición: Después de almacenar los datos, que finalmente desea analizar - y el análisis de datos desordenados puede ser difícil y requiere mucho tiempo. La buena noticia es que un número creciente de herramientas pueden mitigar los retos de análisis comúnmente visto en grandes conjuntos de datos, desordenado.

Hadoop está diseñado para ejecutar análisis complejos

Usted no sólo puede almacenar casi cualquier cosa en Hadoop, sino también ejecutar casi cualquier tipo de algoritmo contra esos datos. Los modelos de aprendizaje automático y bibliotecas incluidas en Apache Mahout son los principales ejemplos, y pueden ser utilizados para una variedad de problemas sofisticadas, incluyendo la clasificación de elementos sobre la base de un gran conjunto de datos de entrenamiento.

Hadoop puede procesar un conjunto de datos completo

Para los tipos de fraude de análisis de casos de uso, los datos de la industria de múltiples fuentes indican que menos del 3 por ciento de todas las devoluciones y reclamaciones son auditadas. Por supuesto, en muchas circunstancias, como el sondeo electoral, el análisis de pequeños conjuntos de muestras de los datos es útil y suficiente.

Pero cuando el 97 por ciento de los retornos y reclamaciones no han sido auditados, incluso con buenas normas de muestreo, todavía ocurren muchas devoluciones fraudulentas. Al ser capaz de ejecutar análisis de fraude en contra de todo el corpus de datos, ahora la oportunidad de decidir si se debe probar.

Hardware está siendo optimizado para Hadoop

Intel es ahora un jugador en el mercado de distribución de Hadoop. Esta jugada de Intel era un sagaz porque su trabajo de distribución muestra la seriedad y compromiso por detrás de sus esfuerzos de integración de código abierto.

Con Hadoop, Intel ve una tremenda oportunidad de vender más hardware. Después de todo, los clusters Hadoop se pueden caracterizar por cientos de nodos, todos los procesadores que requieren, placas base, memoria RAM y discos duros. Intel ha estado invirtiendo fuertemente en la comprensión de Hadoop para que se pueda construir optimizaciones de hardware Intel-específicos que sus colaboradores Hadoop pueden integrarse en proyectos de Hadoop de código abierto.

Otros proveedores de hardware más importantes (como IBM, Dell y HP) también están trayendo activamente oferta Hadoop-amigables al mercado.

Hadoop puede manejar cargas de trabajo cada vez más flexibles

Durante los cuatro años previo a la liberación de Hadoop 2, una gran parte de la atención se dirige a resolver el problema de tener un único punto de fallo (SPOF) con el HDFS NameNode. Aunque este éxito particular era, sin duda, una importante mejora, ya que hizo mucho para permitir la estabilidad de la empresa, HILO es un desarrollo mucho más significativo.

Hasta Hadoop 2, el único procesado que se podía hacer en un clúster Hadoop fue restringida al marco MapReduce. Esto era aceptable para los análisis de registro de casos de uso que Hadoop fue construido originalmente para, pero con una mayor adopción llegó la necesidad real de una mayor flexibilidad.

Sobre el autor

Los factores que aumentan la escala de análisis estadístico en hadoop

La razón la gente degustar sus datos antes de ejecutar el análisis estadístico en Hadoop es que este tipo de análisis a menudo requiere importantes recursos de computación. Esto no es sólo acerca de los volúmenes de datos: hay cinco factores…

Hadapt y hadoop

A finales del año 2010, Hadapt se formó como una puesta en marcha por dos estudiantes de la Universidad de Yale y profesor asistente de ciencias de la computación. Profesor Daniel Abadi y Kamil Bajda-Pawlikowski, estudiante de doctorado del…

Hadoop como un motor de pre-procesamiento de datos

Uno de los primeros casos de uso para Hadoop en la empresa era como un motor de transformación programática utilizada para los datos preprocess con destino a un almacén de datos. Esencialmente, este caso de uso aprovecha la potencia del…

Hadoop como un archivo consultable de datos de almacén de frío

Una multitud de estudios muestran que la mayoría de los datos en un almacén de datos empresariales rara vez se preguntó. Proveedores de bases de datos han respondido a estas observaciones mediante la implementación de sus propios métodos para…

Hadoop distribuido sistema de archivos (HDFS) federación

La solución a la expansión de grupos de Hadoop indefinidamente es federar el NameNode. Antes de Hadoop 2 entró en escena, racimos de Hadoop tuvieron que vivir con el hecho de que NameNode coloca límites al grado en que podrían escalar. Pocos…

¿Cómo elegir una arquitectura de clúster Hadoop

Hadoop está diseñado para ser desplegado en un gran grupo de ordenadores conectados en red, con nodos maestros (que albergan los servicios que controlan el almacenamiento de Hadoop y procesamiento) y nodos esclavos (donde se almacena o trata los…

Ibm grande sql y hadoop

IBM tiene una larga historia de trabajo con SQL y la tecnología de base de datos. De acuerdo con esta historia, la solución de IBM para SQL en Hadoop aprovecha los componentes de sus tecnologías de bases de datos relacionales que son portado para…

Administrar los recursos de datos grandes y aplicaciones con hilo hadoop

Planificación de tareas y seguimiento de los grandes datos son partes integrales de Hadoop MapReduce y se pueden usar para administrar los recursos y aplicaciones. Las primeras versiones de Hadoop apoyaron un sistema de seguimiento de trabajos y…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Bases de datos de procesamiento masivamente paralelo

Para proporcionar una mejor comprensión de las alternativas SQL-en-Hadoop Hive a, podría ser útil revisar una cartilla en el procesamiento paralelo masivo (MPP) bases de datos primero.Apache Hive es en capas en la parte superior del sistema de…

Hawq Pivotal y hadoop

En 2010, EMC y VMware, los líderes del mercado en la entrega de TI como un servicio a través de la computación en nube, adquirieron Greenplum Corporation, las personas que habían llevado con éxito el producto Greenplum MPP Data Warehouse (DW)…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » 10 razones para adoptar hadoop