Los bloques de datos en el sistema de archivos distribuidos Hadoop (HDFS)

Al almacenar un archivo en HDFS, el sistema se descompone en un conjunto de bloques individuales y almacena estos bloques en varios nodos esclavos del clúster Hadoop. Esto es una cosa totalmente normal a hacer, ya que todos los sistemas de archivos dividen los archivos en bloques antes de almacenarlos en el disco.

HDFS tiene ni idea (y no le importa) lo que está almacenada en el archivo, por lo que los archivos RAW no se dividen de acuerdo con las normas que los seres humanos podrían entender. Los seres humanos, por ejemplo, querrían límites récord - las líneas que muestran donde un registro comienza y termina - sean respetados.

HDFS es a menudo felizmente ignorante de que el registro final en un bloque puede ser sólo un registro parcial, con el resto de su contenido fuera desviada al siguiente bloque. HDFS sólo quiere asegurarse de que los archivos se dividen en bloques de igual tamaño que coinciden con el tamaño de bloque predefinido para la instancia Hadoop (a menos que un valor personalizado se inscribió para el archivo que se almacena). En la figura anterior, que el tamaño del bloque es de 128 MB.

No todos los archivos que necesita para guardar es un múltiplo exacto del tamaño de bloque de su sistema, por lo que el bloque de datos final para un archivo sólo utiliza todo el espacio que se necesita. En el caso de la figura anterior, el bloque final de los datos es de 1 MB.

El concepto de almacenamiento de un archivo como una colección de bloques es totalmente coherente con la forma en sistemas de archivos trabajan normalmente. Pero, ¿qué hay de diferente en HDFS es la escala. Un tamaño de bloque típico que te gustaría ver en un sistema de archivos en Linux es de 4 KB, mientras que un tamaño de bloque típico de Hadoop es de 128 MB. Este valor es configurable, y se puede personalizar, ya que tanto un nuevo defecto del sistema y un valor personalizado para archivos individuales.

Hadoop fue diseñado para almacenar datos en la escala de petabytes, donde se minimizan las posibles limitaciones a escalar. El tamaño bloqueo alto es una consecuencia directa de esta necesidad de almacenar datos en una escala masiva.

En primer lugar, cada bloque de datos almacenado en HDFS tiene su propio metadatos y necesita ser rastreado por un servidor central para que las aplicaciones que necesitan acceder a un archivo específico pueden ser dirigidas a cualquier lugar donde se almacenan todos los bloques del archivo. Si el tamaño del bloque estaban en el rango de kilobytes, incluso modestos volúmenes de datos en la escala terabyte se abruman el servidor de metadatos con demasiados bloques para realizar un seguimiento.

En segundo lugar, HDFS está diseñado para permitir un alto rendimiento de modo que el procesamiento en paralelo de estos grandes conjuntos de datos ocurre tan rápidamente como sea posible. La clave para la escalabilidad de Hadoop en el lado de proceso de datos es, y siempre será, paralelismo - la capacidad de procesar los bloques individuales de estos archivos de gran tamaño en paralelo.

Para habilitar el procesamiento eficiente, un equilibrio debe ser golpeado. Por un lado, el tamaño de bloque debe ser lo suficientemente grande como para justificar los recursos dedicados a una unidad individual de procesamiento de datos (por ejemplo, un mapa o reducir la tarea). Por otro lado, el tamaño de bloque no puede ser tan grande que el sistema está esperando un tiempo muy largo para una última unidad de procesamiento de datos para terminar su trabajo.

Estas dos consideraciones obviamente dependen de los tipos de trabajo que se realizan en los bloques de datos.

Sobre el autor

Hadoop sistema de archivos distribuido (HDFS) para proyectos de grandes volúmenes de datos

El sistema de archivos distribuido Hadoop es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande. HDFS no es el destino final de los archivos. Más bien, es un servicio de datos que ofrece un conjunto…

Importación de datos con Sqoop

Listo para sumergirse en la importación de datos con Sqoop? Empieza por tomar un vistazo a la figura, que ilustra los pasos en una operación típica Sqoop importación de un RDBMS o un sistema de almacenamiento de datos. Nada demasiado complicado…

Entrada divide en MapReduce de Hadoop

La forma HDFS se ha establecido, se descompone muy grandes archivos en bloques grandes (por ejemplo, la medición de 128 MB), y almacena tres copias de estos bloques en diferentes nodos del clúster. HDFS no tiene conciencia del contenido de estos…

Lleve un registro de los bloques de datos con NameNode en HDFS

El NameNode actúa como la libreta de direcciones para Hadoop Distributed File System (HDFS), ya que no sólo sabe que bloquea constituyen archivos individuales, sino también el lugar donde se almacenan cada uno de estos bloques y sus réplicas.…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Gestión de archivos con los comandos del sistema de archivos hadoop

HDFS es uno de los dos componentes principales de la Hadoop de armazón y el otro es el paradigma computacional conocido como MapReduce. LA sistema de archivos distribuido es un sistema de archivos que gestiona el almacenamiento a través de un…

Nodos Máster en racimos de Hadoop

Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Errores de nodo y disco esclavo en HDFS

Al igual que la muerte y los impuestos, fallos de disco (y dado el tiempo suficiente, incluso errores de nodo o bastidor), son inevitables en Hadoop Distributed File System (HDFS). En el ejemplo mostrado, incluso si un rack fallara, el grupo podría…

Nodos esclavos en el sistema de archivos distribuidos Hadoop (HDFS)

En un clúster Hadoop, cada nodo de datos (también conocido como un nodo esclavo) Se ejecuta un proceso de fondo llamado DataNode. Este proceso de fondo (también conocido como una demonio) Comprueba los trozos de datos que el sistema almacena en…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Los bloques de datos en el sistema de archivos distribuidos Hadoop (HDFS)