Consideraciones bastidor Hadoop
Un principio básico de Hadoop está escalando con nodos esclavos adicionales para satisfacer la creciente de datos en el almacenamiento y demandas -Procesamiento. En un modelo a escala de salida, debe considerar cuidadosamente el diseño clúster porque decenas, e incluso cientos, de nodos esclavos en última instancia, deben ser atormentado, impulsado, en red, y se enfría.
Factores de forma de servidor
Una de las primeras opciones que los arquitectos se enfrentará al diseñar un cluster Hadoop es cuál de los dos factores de forma de usar para los nodos de Hadoop:
Servidor de la hoja: Diseñado para una máxima densidad, se puede meter la mayor cantidad de estos bebés en un estante como sea posible. Los servidores blade encajan en recintos blade, que tienen muchos componentes de servidor estándar, como almacenamiento dedicado, redes, potencia y refrigeración. Estos componentes se comparten entre los servidores blade, lo que significa que cada servidor blade individual puede ser mucho menor.
Los servidores blade son una opción atractiva en la superficie, ya que podría tener un rack estándar y desplegar entre el 40 y 50 de estos servidores blade. El problema con el uso de cuchillas para los despliegues de Hadoop es que se basan en ciertos componentes compartidos, que no es acorde con la arquitectura nada compartida de Hadoop, donde cada uno de los nodos esclavos son autónomos y tienen sus propios recursos dedicados.
Más importante aún, las hojas tienen poco espacio para el almacenamiento conectado localmente, a menudo teniendo no más de dos o tres bahías de unidad. Esto es un no-arrancador para Hadoop, ya nodos esclavos necesitan mucha más capacidad de almacenamiento dedicado.
Rack de servidores: Servidores completos sin componentes compartidos y espacio para la expansión de hardware, servidores en rack son la verdadera opción para Hadoop porque están muy bien autónomo. Un servidor en rack que está configurado adecuadamente para ser un nodo esclavo Hadoop normalmente ocupa dos RU, para que pueda caber 20 de ellos en un rack estándar.
El costo de la propiedad
Al elegir y diseñar un nodo esclavo, sus consideraciones más importantes suelen ser los costes de adquisición iniciales y el volumen de almacenamiento. Sin embargo, el coste de propiedad también es importante. Es un acto de equilibrio muy bien, sin embargo, porque las opciones que afectan el costo de adquisición, el consumo de energía, refrigeración, el rendimiento del hardware, y la densidad son a menudo en oposición. En el nombre de ayudarle a tomar buenas decisiones, aquí hay algunos consejos (muy específico):
Reserva fuentes de alimentación redundantes para los nodos principales. Tener fuentes de alimentación redundantes de nodos esclavos es un exceso - un fallo de alimentación en un nodo esclavo no afectaría en gran medida el clúster. Sin embargo, tener fuentes de alimentación redundantes en todos los nodos esclavos aumentaría el consumo de energía y generar más calor.
Elige medio-de-la-carretera velocidades de reloj para esclavo CPUs nodo. CPUs con mayor reloj no sólo acelera cuestan más, pero también utilizan más energía y generan mucho más calor.
Elija servidores en rack que están diseñados para Hadoop. Con la creciente popularidad de Hadoop, todos los principales proveedores de hardware ofrecen ahora los servidores de bastidor que son nodos esclavos ideales, con 12 a 20 bahías de unidad de almacenamiento conectado localmente.
Servidores de rack diseñados para funcionar como nodos esclavos Hadoop suelen ser demasiado grandes para caber en un factor de forma de una empresa ferroviaria, pero ocupando de dos empresas ferroviarias puede resultar en el espacio perdido. Para el uso más eficiente del espacio, algunos fabricantes de hardware han lanzado servidores en rack que abarrotan múltiples nodos esclavos en un solo chasis.
A modo de ejemplo, en esta forma comprimida, un bastidor estándar puede tener hasta 27 nodos esclavos (incluso con los conmutadores de red), donde cada nodo esclavo tiene espacio para 15 unidades de disco para HDFS. El resultado de esta disposición es mucho más alta densidad y un mejor uso del espacio en el centro de datos.