Configure el entorno hadoop con bigtop apache

Si se siente cómodo trabajando con máquinas virtuales y Linux, no dudes en instalar Bigtop en una máquina virtual diferente a lo que se recomienda. Si usted es realmente atrevido y tener el hardware, seguir adelante y tratar de instalar Bigtop en un clúster de máquinas en modo totalmente distribuida!

Conteúdo

Paso 1: descarga de una máquina virtual
Paso 2: descargar bigtop
Paso 3: instalación de bigtop
Paso 4: a partir hadoop
Paso 5: cargar el conjunto de datos de muestra
Paso 6: copia de los datos de la muestra pone en hdfs

Paso 1: Descarga de una máquina virtual

Hadoop se ejecuta en todas las distribuciones populares de Linux, por lo que necesita una máquina virtual de Linux. Hay una disposición libremente (y legal!) Imagen CentOS 6 disponible.

Usted necesitará un sistema operativo de 64 bits en su computadora portátil con el fin de ejecutar esta VM. Hadoop necesita un entorno de 64 bits.

Una vez que haya descargado el VM, extraerlo del archivo zip descargado en el directorio de destino. No asegurarse de que tiene alrededor de 50 GB de espacio disponible como Hadoop y tus datos de ejemplo se lo necesita.

Si aún no dispone de un reproductor de VM, se puede descargar una de forma gratuita.

Después de haber su reproductor VM instalar, abrir el reproductor, vaya a Archivo-Abrir, y luego ir al directorio donde extrajo su Linux VM. Busque un archivo llamado y seleccionarlo. Usted verá la información sobre el número de procesadores y cómo la memoria mucho que va a utilizar. Averigüe cuánta memoria tiene su computadora, y asignar la mitad de la máquina virtual para usar. Hadoop necesita mucha memoria.

Una vez que esté listo, haga clic en el botón Reproducir y la instancia de Linux se iniciará. Usted verá un montón de mensajes pasan volando como Linux se está iniciando y llegarás a una pantalla de inicio de sesión. El nombre de usuario ya está establecido en ". Tom " Especifique la contraseña como " tomtom " e ingrese.

Paso 2: Descargar Bigtop

Desde dentro de la máquina virtual de Linux, a la derecha; haga clic en la pantalla y seleccione Abrir en la Terminal desde el menú contextual que aparece. Esto abre un terminal de Linux, donde se puede ejecutar comandos. Haga clic dentro de la terminal para que pueda ver el cursor e introduzca el siguiente comando: do -

Se le pedirá su contraseña, por lo que escribes " tomtom " como lo hizo antes. Este comando cambia al usuario root, que es la cuenta principal de una computadora Linux - que necesita esto con el fin de instalar Hadoop.

Con su acceso de root (no deje que el poder llegar a la cabeza), ejecute el siguiente comando:

wget -O /etc/yum.repos.d/bigtop.repo 
http://apache.org/dist/bigtop/bigtop-
0.7.0 / repos / centos6 / bigtop.repo

El comando es esencialmente una solicitud web, la cual solicita un archivo específico en la URL que aparece y lo escribe en un camino específico - en este caso, eso es /.

Paso 3: Instalación de Bigtop

Los genios detrás de Linux han hecho la vida muy fácil para la gente que necesita para instalar paquetes de software grandes como Hadoop. Lo que ha descargado en el último paso no era todo el paquete Bigtop y todas sus dependencias. Era sólo una archivo de depósito (con la extensión), que le dice a un programa de instalación que se necesitan paquetes de software para la instalación Bigtop.

Como cualquier producto de software grande, Hadoop tiene un montón de requisitos previos, pero usted no tiene que preocuparse. Un archivo bien diseñado se apuntan a cualquier dependencia, y el instalador es lo suficientemente inteligente como para ver si se están perdiendo en el equipo y luego descargar e instalarlos.

El programa de instalación que está utilizando aquí se llama yum, que se llega a ver en acción ahora:

yum install hadoop * mahout * oozie * HBase * colmena * hue * cerdo * zookeeper *

Tenga en cuenta que usted está recogiendo y seleccionando los componentes de Hadoop para instalar. Hay un número de otros componentes disponibles en Bigtop, pero estos son los únicos que va a utilizar aquí. Desde la máquina virtual es una nueva instalación de Linux, tendrá muchas dependencias, por lo que tendrá que esperar un poco.

El instalador yum es bastante detallado, para que pueda ver exactamente lo que la descarga e instalación de pasar el tiempo. Cuando se realiza el proceso de instalación, debería ver un mensaje que dice "! Completa "

Paso 4: A partir Hadoop

Antes de iniciar la ejecución de aplicaciones en Hadoop, hay algunas de configuración e instalación cosas básicas que usted necesita hacer. Aquí están en orden:

Descargar e instalar Java:

yum install java-1.7.0-openjdk-devel.x86_64

Formatear la NameNode:

sudo /etc/init.d/hadoop-hdfs-namenode init

Inicie los servicios de Hadoop para el clúster pseudodistributed:

for i in Hadoop-hdfs-NameNode Hadoop-hdfs-DataNode - hacer el servicio sudo $ empiezo - hecho

Crear una estructura de subdirectorio en HDFS:
```
sudo /usr/lib/hadoop/libexec/init-hdfs.sh
```
Inicie los demonios en lanas:

servicio sudo hadoop-hilo ResourceManager inicio del servicio startsudo hadoop-hilo NodeManager

Y con eso, ya está hecho. ¡Felicidades! Usted ha instalado un despliegue de Hadoop de trabajo!

Paso 5: Cargar el conjunto de datos de muestra

Para descargar el conjunto de datos de muestra, abra el navegador Firefox desde dentro de la máquina virtual, e ir a la página de dataexpo.

Usted no necesitará todo el conjunto de datos, así que empieza con un solo año de 1987. Cuando estás a punto de descarga, seleccione la opción Abrir con Archive Manager.

Después de que su archivo se ha descargado, extraer el archivo en su directorio personal donde fácilmente podrá encontrarlo. Haga clic en el botón Extraer y, a continuación, seleccione el directorio Escritorio.

Paso 6: Copia de los datos de la muestra pone en HDFS

Recuerde que sus programas de Hadoop sólo pueden trabajar con los datos después de que se almacena en HDFS. Entonces, ¿qué vas a hacer ahora es copiar el archivo de datos de vuelo para 1987 en HDFS. Escriba el siguiente comando:

hdfs dfs -copyFromLocal 1987.csv / user / root

Sobre el autor

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

¿Cómo elegir una arquitectura de clúster Hadoop

Hadoop está diseñado para ser desplegado en un gran grupo de ordenadores conectados en red, con nodos maestros (que albergan los servicios que controlan el almacenamiento de Hadoop y procesamiento) y nodos esclavos (donde se almacena o trata los…

¿Cómo obtener oozie apache creó en hadoop

Apache Oozie está incluido en todas las distribuciones de Hadoop importante, incluyendo Apache Bigtop. En el clúster Hadoop, instale el servidor Oozie en un nodo de borde, donde usted también ejecutar otras aplicaciones de cliente con los datos…

¿Cómo empezar a trabajar con la colmena apache

No hay mejor manera de ver lo que es lo que al instalar el software de la colmena y darle una prueba de funcionamiento. Al igual que con otras tecnologías en el ecosistema Hadoop, no se necesita mucho tiempo para empezar.Si usted tiene el tiempo y…

Entrada divide en MapReduce de Hadoop

La forma HDFS se ha establecido, se descompone muy grandes archivos en bloques grandes (por ejemplo, la medición de 128 MB), y almacena tres copias de estos bloques en diferentes nodos del clúster. HDFS no tiene conciencia del contenido de estos…

Modos locales y distribuidas de guiones de cerdos en ejecución en hadoop

Antes de que pueda ejecutar su primer script Cerdo en Hadoop, es necesario tener una manija en cómo los programas de cerdo pueden ser empaquetados con el servidor de cerdo.Cerdo tiene dos modos de ejecutar secuencias de comandos:Modo local: Todos…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Gestión de archivos con los comandos del sistema de archivos hadoop

HDFS es uno de los dos componentes principales de la Hadoop de armazón y el otro es el paradigma computacional conocido como MapReduce. LA sistema de archivos distribuido es un sistema de archivos que gestiona el almacenamiento a través de un…

Hawq Pivotal y hadoop

En 2010, EMC y VMware, los líderes del mercado en la entrega de TI como un servicio a través de la computación en nube, adquirieron Greenplum Corporation, las personas que habían llevado con éxito el producto Greenplum MPP Data Warehouse (DW)…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Operando flujos de trabajo oozie en hadoop

Antes de ejecutar los flujos de trabajo oozie, todos sus componentes tienen que existir dentro de una estructura de directorio especificado. En concreto, el flujo de trabajo en sí debe tener su propio directorio, dedicado, donde workflow.xml está…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Configure el entorno hadoop con bigtop apache