Dimensionar el clúster Hadoop

Dimensionamiento cualquier sistema de procesamiento de datos es tanto una ciencia como un arte. Con Hadoop, se tiene en cuenta la misma información que lo haría con una base de datos relacional, por ejemplo. Lo más significativo es lo que necesita saber la cantidad de datos que tiene, estimar sus tasas de crecimiento esperadas, y establecer una política de retención (cuánto tiempo mantener los datos).

Las respuestas a estas preguntas sirven como punto de partida, que es independiente de los requisitos relacionados con la tecnología.

Después de determinar la cantidad de datos que necesita para almacenar, puede iniciar el factoring en consideraciones Hadoop-específicos. Supongamos que usted tiene una empresa de telecomunicaciones y que haya establecido que usted necesita 750 terabytes (TB) de espacio de almacenamiento para su registro detallado de llamadas (CDR) los archivos de registro.

Usted conserva estos registros a obedecer las regulaciones del gobierno, pero también se puede analizarlos para ver patrones de deserción y la salud de la red del monitor, por ejemplo. Para determinar la cantidad de espacio de almacenamiento que necesita y, como resultado, el número de bastidores y nodos esclavos que necesita, a llevar a cabo sus cálculos con estos factores en mente:

  • Replicación: El factor de replicación predeterminada para datos en HDFS es 3. Los 500 terabytes de datos CDR para la empresa de telecomunicaciones en el ejemplo a continuación, se convierte en 1500 terabytes.

  • Espacio de intercambio: Cualquier análisis o procesamiento de los datos por MapReduce necesita un 25 por ciento adicional de espacio para almacenar los conjuntos de resultados intermedios y finales. (La empresa de telecomunicaciones necesita ahora 1875 terabytes de espacio de almacenamiento.)

  • Compresión: La empresa de telecomunicaciones almacena los CDRs en forma comprimida, donde se espera que la relación de compresión media a ser de 3: 1. Ahora tendrá 625 terabytes.

  • Número de nodos esclavos: Suponiendo que cada nodo esclavo cuenta con doce unidades de 3 TB dedicadas a HDFS, cada nodo esclavo tiene 36 terabytes de almacenamiento HDFS primas disponibles, por lo que la empresa necesita 18 nodos esclavos.

  • Número de bastidores: Debido a que cada nodo esclavo utiliza 2RU y la empresa en el ejemplo necesita tres nodos maestros (1 RU cada uno) y dos interruptores TdR (1RU cada uno), se necesita un total de 41RU. Es 1RU menor que la capacidad total de un rack estándar, por lo que un solo rack es suficiente para este despliegue.

    En cualquier caso, ya no queda espacio para el crecimiento en este grupo, por lo que es prudente comprar una segunda cremallera (y dos interruptores adicionales TdR) y dividir los nodos esclavos entre los dos bastidores.

  • Pruebas: El mantenimiento de un clúster de prueba que es una representación más pequeña escala del clúster de producción es una práctica estándar. No tiene que ser enorme, pero usted quiere al menos cinco nodos de datos para que usted obtenga una representación precisa de la conducta de Hadoop. Como con cualquier entorno de prueba, debe ser aislado en una red diferente de la clúster de producción.

  • Copia de seguridad y recuperación de desastres: Como cualquier sistema de producción, la compañía de telecomunicaciones también tendrá que considerar los requisitos de copia de seguridad y recuperación de desastres. Esta empresa podría ir tan lejos como para crear un clúster espejo para asegurarse de que tienen un modo de espera caliente para todo su sistema. Esto es obviamente la opción más cara, pero es adecuado para entornos en los que el tiempo de actividad constante es crítica.

    Al final menos costoso del espectro (más allá de no realizar copias de seguridad de los datos en absoluto), la compañía de telecomunicaciones podría periódicamente copias de seguridad de todos los datos (incluyendo los propios datos, aplicaciones, archivos de configuración y los metadatos) que se almacena en su clúster de producción en la cinta. Con la cinta, los datos no es inmediatamente accesible, pero permitirá un esfuerzo de recuperación de desastres en el caso de que no toda la producción de clúster Hadoop.

Al igual que con su propio ordenador personal, cuando la unidad de disco duro principal se llena con el espacio, el sistema se ralentiza considerablemente. Hadoop no es una excepción. Además, una unidad de disco duro funciona mejor cuando es menos de 85 a 90 por ciento de su capacidad. Con esta información en mente, si el rendimiento es importante para usted, usted debe subir el factor de intercambio en el espacio 25 a 33 por ciento.




» » » » Dimensionar el clúster Hadoop