La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación distribuida.

El sistema de archivos distribuido Hadoop (HDFS) fue desarrollado para permitir a las empresas a gestionar más fácilmente grandes volúmenes de datos de una manera simple y pragmática. Hadoop permite grandes problemas que se descomponen en elementos más pequeños por lo que el análisis se puede realizar de forma rápida y rentable. HDFS es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande.

HDFS no es el destino final de los archivos. Más bien es un "servicio" de datos que ofrece un conjunto único de capacidades necesarias cuando los volúmenes y la velocidad de datos son altas.

MapReduce es un marco de software que permite a los desarrolladores escribir programas que pueden procesar grandes cantidades de datos no estructurados en paralelo a través de un grupo distribuido de procesadores. MapReduce fue diseñada por Google como una manera de ejecutar de manera eficiente un conjunto de funciones contra una gran cantidad de datos en el modo por lotes.

El "mapa" componente distribuye el problema de programación o tareas a través de un gran número de sistemas y se ocupa de la colocación de las tareas de una manera que equilibra la carga y gestiona la recuperación de fallos. Después de que se complete la computación distribuida, otra función llamada "reducir" agrega todos los elementos de nuevo juntos para proporcionar un resultado. Un ejemplo de uso de MapReduce sería determinar el número de páginas de un libro están escritos en cada uno de los 50 idiomas diferentes.

Sobre el autor

Hadoop distribuido sistema de archivos (HDFS) federación

La solución a la expansión de grupos de Hadoop indefinidamente es federar el NameNode. Antes de Hadoop 2 entró en escena, racimos de Hadoop tuvieron que vivir con el hecho de que NameNode coloca límites al grado en que podrían escalar. Pocos…

Integración Hadoop con r

En un principio, los grandes datos y R no eran amigos naturales. R programación requiere que todos los objetos pueden cargar en la memoria principal de una sola máquina. Las limitaciones de esta arquitectura se dieron cuenta rápidamente cuando…

Cerdo Hadoop y latín de cerdo para los grandes datos

El poder y la flexibilidad de Hadoop para grandes datos son inmediatamente visibles para los desarrolladores de software principalmente porque el ecosistema Hadoop fue construido por los desarrolladores, para los desarrolladores. Sin embargo, no…

Hadoop MapReduce para grandes datos

Para entender completamente las capacidades de Hadoop MapReduce, es importante diferenciar entre Mapa reducido (el algoritmo) y una implementación de Mapa reducido. Hadoop MapReduce es una implementación del algoritmo desarrollado y mantenido por…

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

Entrada divide en MapReduce de Hadoop

La forma HDFS se ha establecido, se descompone muy grandes archivos en bloques grandes (por ejemplo, la medición de 128 MB), y almacena tres copias de estos bloques en diferentes nodos del clúster. HDFS no tiene conciencia del contenido de estos…

Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.Cerdo tiene dos modos de ejecutar secuencias de comandos:Modo local: Todos…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

El ecosistema Hadoop de Apache

Hadoop es más de MapReduce y HDFS (Hadoop Distributed File System): Es también una familia de proyectos relacionados (un ecosistema, en realidad) para la computación distribuida y el procesamiento de datos a gran escala. La mayoría (pero no…

Cómo utilizar Hadoop de Apache para análisis predictivo

Hadoop es una plataforma de software libre de código abierto para la redacción y ejecución de aplicaciones que procesan una gran cantidad de datos para el análisis predictivo. Se permite un procesamiento paralelo distribuido de grandes conjuntos…

Capa 3 de la pila de datos grande: la organización de los servicios y herramientas de datos

La organización de los servicios de datos y herramientas, la capa 3 de la pila de datos grande, capturar, validar, y montar varios elementos de datos grandes en colecciones contextualmente relevantes. Dado que los datos de grande es masiva, las…

Grandes datos de mina con la colmena

Hive es una capa de datos de depósito orientado a lotes construido sobre los elementos básicos de Hadoop (HDFS y MapReduce) y es muy útil en grandes volúmenes de datos. Proporciona a los usuarios que saben de SQL con una implementación…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » La gestión de grandes datos con Hadoop HDFS y MapReduce: