Configure el entorno hadoop con bigtop apache

Si se siente cómodo trabajando con máquinas virtuales y Linux, no dudes en instalar Bigtop en una máquina virtual diferente a lo que se recomienda. Si usted es realmente atrevido y tener el hardware, seguir adelante y tratar de instalar Bigtop en un clúster de máquinas en modo totalmente distribuida!

Paso 1: Descarga de una máquina virtual

Hadoop se ejecuta en todas las distribuciones populares de Linux, por lo que necesita una máquina virtual de Linux. Hay una disposición libremente (y legal!) Imagen CentOS 6 disponible.

Usted necesitará un sistema operativo de 64 bits en su computadora portátil con el fin de ejecutar esta VM. Hadoop necesita un entorno de 64 bits.

Una vez que haya descargado el VM, extraerlo del archivo zip descargado en el directorio de destino. No asegurarse de que tiene alrededor de 50 GB de espacio disponible como Hadoop y tus datos de ejemplo se lo necesita.

Si aún no dispone de un reproductor de VM, se puede descargar una de forma gratuita.

Después de haber su reproductor VM instalar, abrir el reproductor, vaya a Archivo-Abrir, y luego ir al directorio donde extrajo su Linux VM. Busque un archivo llamado y seleccionarlo. Usted verá la información sobre el número de procesadores y cómo la memoria mucho que va a utilizar. Averigüe cuánta memoria tiene su computadora, y asignar la mitad de la máquina virtual para usar. Hadoop necesita mucha memoria.

Una vez que esté listo, haga clic en el botón Reproducir y la instancia de Linux se iniciará. Usted verá un montón de mensajes pasan volando como Linux se está iniciando y llegarás a una pantalla de inicio de sesión. El nombre de usuario ya está establecido en ". Tom " Especifique la contraseña como " tomtom " e ingrese.

Paso 2: Descargar Bigtop

Desde dentro de la máquina virtual de Linux, a la derecha; haga clic en la pantalla y seleccione Abrir en la Terminal desde el menú contextual que aparece. Esto abre un terminal de Linux, donde se puede ejecutar comandos. Haga clic dentro de la terminal para que pueda ver el cursor e introduzca el siguiente comando: do -

Se le pedirá su contraseña, por lo que escribes " tomtom " como lo hizo antes. Este comando cambia al usuario root, que es la cuenta principal de una computadora Linux - que necesita esto con el fin de instalar Hadoop.

Con su acceso de root (no deje que el poder llegar a la cabeza), ejecute el siguiente comando:

wget -O /etc/yum.repos.d/bigtop.repo 
http://apache.org/dist/bigtop/bigtop-
0.7.0 / repos / centos6 / bigtop.repo

El comando es esencialmente una solicitud web, la cual solicita un archivo específico en la URL que aparece y lo escribe en un camino específico - en este caso, eso es /.

Paso 3: Instalación de Bigtop

Los genios detrás de Linux han hecho la vida muy fácil para la gente que necesita para instalar paquetes de software grandes como Hadoop. Lo que ha descargado en el último paso no era todo el paquete Bigtop y todas sus dependencias. Era sólo una archivo de depósito (con la extensión), que le dice a un programa de instalación que se necesitan paquetes de software para la instalación Bigtop.

Como cualquier producto de software grande, Hadoop tiene un montón de requisitos previos, pero usted no tiene que preocuparse. Un archivo bien diseñado se apuntan a cualquier dependencia, y el instalador es lo suficientemente inteligente como para ver si se están perdiendo en el equipo y luego descargar e instalarlos.

El programa de instalación que está utilizando aquí se llama yum, que se llega a ver en acción ahora:

yum install hadoop * mahout * oozie * HBase * colmena * hue * cerdo * zookeeper *

Tenga en cuenta que usted está recogiendo y seleccionando los componentes de Hadoop para instalar. Hay un número de otros componentes disponibles en Bigtop, pero estos son los únicos que va a utilizar aquí. Desde la máquina virtual es una nueva instalación de Linux, tendrá muchas dependencias, por lo que tendrá que esperar un poco.

El instalador yum es bastante detallado, para que pueda ver exactamente lo que la descarga e instalación de pasar el tiempo. Cuando se realiza el proceso de instalación, debería ver un mensaje que dice "! Completa "

Paso 4: A partir Hadoop

Antes de iniciar la ejecución de aplicaciones en Hadoop, hay algunas de configuración e instalación cosas básicas que usted necesita hacer. Aquí están en orden:

  1. Descargar e instalar Java:

    yum install java-1.7.0-openjdk-devel.x86_64
  2. Formatear la NameNode:

    sudo /etc/init.d/hadoop-hdfs-namenode init
  3. Inicie los servicios de Hadoop para el clúster pseudodistributed:

    for i in Hadoop-hdfs-NameNode Hadoop-hdfs-DataNode - hacer el servicio sudo $ empiezo - hecho
  4. Crear una estructura de subdirectorio en HDFS:

    sudo /usr/lib/hadoop/libexec/init-hdfs.sh
  5. Inicie los demonios en lanas:

servicio sudo hadoop-hilo ResourceManager inicio del servicio startsudo hadoop-hilo NodeManager

Y con eso, ya está hecho. ¡Felicidades! Usted ha instalado un despliegue de Hadoop de trabajo!

Paso 5: Cargar el conjunto de datos de muestra

Para descargar el conjunto de datos de muestra, abra el navegador Firefox desde dentro de la máquina virtual, e ir a la página de dataexpo.

Usted no necesitará todo el conjunto de datos, así que empieza con un solo año de 1987. Cuando estás a punto de descarga, seleccione la opción Abrir con Archive Manager.

Después de que su archivo se ha descargado, extraer el archivo en su directorio personal donde fácilmente podrá encontrarlo. Haga clic en el botón Extraer y, a continuación, seleccione el directorio Escritorio.

Paso 6: Copia de los datos de la muestra pone en HDFS

Recuerde que sus programas de Hadoop sólo pueden trabajar con los datos después de que se almacena en HDFS. Entonces, ¿qué vas a hacer ahora es copiar el archivo de datos de vuelo para 1987 en HDFS. Escriba el siguiente comando:

hdfs dfs -copyFromLocal 1987.csv / user / root



» » » » Configure el entorno hadoop con bigtop apache