Dimensionar el clúster Hadoop

Dimensionamiento cualquier sistema de procesamiento de datos es tanto una ciencia como un arte. Con Hadoop, se tiene en cuenta la misma información que lo haría con una base de datos relacional, por ejemplo. Lo más significativo es lo que necesita saber la cantidad de datos que tiene, estimar sus tasas de crecimiento esperadas, y establecer una política de retención (cuánto tiempo mantener los datos).

Las respuestas a estas preguntas sirven como punto de partida, que es independiente de los requisitos relacionados con la tecnología.

Después de determinar la cantidad de datos que necesita para almacenar, puede iniciar el factoring en consideraciones Hadoop-específicos. Supongamos que usted tiene una empresa de telecomunicaciones y que haya establecido que usted necesita 750 terabytes (TB) de espacio de almacenamiento para su registro detallado de llamadas (CDR) los archivos de registro.

Usted conserva estos registros a obedecer las regulaciones del gobierno, pero también se puede analizarlos para ver patrones de deserción y la salud de la red del monitor, por ejemplo. Para determinar la cantidad de espacio de almacenamiento que necesita y, como resultado, el número de bastidores y nodos esclavos que necesita, a llevar a cabo sus cálculos con estos factores en mente:

Replicación: El factor de replicación predeterminada para datos en HDFS es 3. Los 500 terabytes de datos CDR para la empresa de telecomunicaciones en el ejemplo a continuación, se convierte en 1500 terabytes.
Espacio de intercambio: Cualquier análisis o procesamiento de los datos por MapReduce necesita un 25 por ciento adicional de espacio para almacenar los conjuntos de resultados intermedios y finales. (La empresa de telecomunicaciones necesita ahora 1875 terabytes de espacio de almacenamiento.)
Compresión: La empresa de telecomunicaciones almacena los CDRs en forma comprimida, donde se espera que la relación de compresión media a ser de 3: 1. Ahora tendrá 625 terabytes.
Número de nodos esclavos: Suponiendo que cada nodo esclavo cuenta con doce unidades de 3 TB dedicadas a HDFS, cada nodo esclavo tiene 36 terabytes de almacenamiento HDFS primas disponibles, por lo que la empresa necesita 18 nodos esclavos.
Número de bastidores: Debido a que cada nodo esclavo utiliza 2RU y la empresa en el ejemplo necesita tres nodos maestros (1 RU cada uno) y dos interruptores TdR (1RU cada uno), se necesita un total de 41RU. Es 1RU menor que la capacidad total de un rack estándar, por lo que un solo rack es suficiente para este despliegue.
En cualquier caso, ya no queda espacio para el crecimiento en este grupo, por lo que es prudente comprar una segunda cremallera (y dos interruptores adicionales TdR) y dividir los nodos esclavos entre los dos bastidores.
Pruebas: El mantenimiento de un clúster de prueba que es una representación más pequeña escala del clúster de producción es una práctica estándar. No tiene que ser enorme, pero usted quiere al menos cinco nodos de datos para que usted obtenga una representación precisa de la conducta de Hadoop. Como con cualquier entorno de prueba, debe ser aislado en una red diferente de la clúster de producción.
Copia de seguridad y recuperación de desastres: Como cualquier sistema de producción, la compañía de telecomunicaciones también tendrá que considerar los requisitos de copia de seguridad y recuperación de desastres. Esta empresa podría ir tan lejos como para crear un clúster espejo para asegurarse de que tienen un modo de espera caliente para todo su sistema. Esto es obviamente la opción más cara, pero es adecuado para entornos en los que el tiempo de actividad constante es crítica.
Al final menos costoso del espectro (más allá de no realizar copias de seguridad de los datos en absoluto), la compañía de telecomunicaciones podría periódicamente copias de seguridad de todos los datos (incluyendo los propios datos, aplicaciones, archivos de configuración y los metadatos) que se almacena en su clúster de producción en la cinta. Con la cinta, los datos no es inmediatamente accesible, pero permitirá un esfuerzo de recuperación de desastres en el caso de que no toda la producción de clúster Hadoop.

Al igual que con su propio ordenador personal, cuando la unidad de disco duro principal se llena con el espacio, el sistema se ralentiza considerablemente. Hadoop no es una excepción. Además, una unidad de disco duro funciona mejor cuando es menos de 85 a 90 por ciento de su capacidad. Con esta información en mente, si el rendimiento es importante para usted, usted debe subir el factor de intercambio en el espacio 25 a 33 por ciento.

Sobre el autor

Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad

A menudo en la infancia de Hadoop, una gran cantidad de debate se centra en la representación de la NameNode de un único punto de fallo. Hadoop, en general, ha tenido siempre una arquitectura robusta y el fracaso-tolerante, con la excepción de…

Consideraciones bastidor Hadoop

Un principio básico de Hadoop está escalando con nodos esclavos adicionales para satisfacer la creciente de datos en el almacenamiento y demandas -Procesamiento. En un modelo a escala de salida, debe considerar cuidadosamente el diseño clúster…

Hadoop sistema de archivos distribuido (HDFS) para proyectos de grandes volúmenes de datos

El sistema de archivos distribuido Hadoop es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande. HDFS no es el destino final de los archivos. Más bien, es un servicio de datos que ofrece un conjunto…

¿Cómo elegir una arquitectura de clúster Hadoop

Hadoop está diseñado para ser desplegado en un gran grupo de ordenadores conectados en red, con nodos maestros (que albergan los servicios que controlan el almacenamiento de Hadoop y procesamiento) y nodos esclavos (donde se almacena o trata los…

Entrada divide en MapReduce de Hadoop

La forma HDFS se ha establecido, se descompone muy grandes archivos en bloques grandes (por ejemplo, la medición de 128 MB), y almacena tres copias de estos bloques en diferentes nodos del clúster. HDFS no tiene conciencia del contenido de estos…

Lleve un registro de los bloques de datos con NameNode en HDFS

El NameNode actúa como la libreta de direcciones para Hadoop Distributed File System (HDFS), ya que no sólo sabe que bloquea constituyen archivos individuales, sino también el lugar donde se almacenan cada uno de estos bloques y sus réplicas.…

Administrar los recursos de datos grandes y aplicaciones con hilo hadoop

Planificación de tareas y seguimiento de los grandes datos son partes integrales de Hadoop MapReduce y se pueden usar para administrar los recursos y aplicaciones. Las primeras versiones de Hadoop apoyaron un sistema de seguimiento de trabajos y…

Nodos Máster en racimos de Hadoop

Los nodos principales en racimos de Hadoop distribuidos reciban a los diferentes servicios de almacenamiento y gestión de procesamiento, que se describen en esta lista, por todo el clúster Hadoop. La redundancia es fundamental para evitar los…

Racimos de Redes y Hadoop

Como con cualquier sistema distribuido, redes puede hacer o deshacer un cluster Hadoop: No " ir barato ". Una gran parte de la charla tiene lugar entre los nodos principales y nodos esclavos en un clúster Hadoop que es esencial para mantener el…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Ejecución de aplicaciones antes hadoop 2

Debido a que muchos despliegues de Hadoop existentes todavía no están utilizando embargo, otro negociador de recursos (HILO), tomar un rápido vistazo a cómo Hadoop logró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en…

Nodos esclavos en el sistema de archivos distribuidos Hadoop (HDFS)

En un clúster Hadoop, cada nodo de datos (también conocido como un nodo esclavo) Se ejecuta un proceso de fondo llamado DataNode. Este proceso de fondo (también conocido como una demonio) Comprueba los trozos de datos que el sistema almacena en…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Dimensionar el clúster Hadoop