Hadoop para dummies

los Shell Hadoop

Conteúdo

Comandos de administración de hadoop
El hadoop dfsadmin opciones de comando

es una familia de comandos que se pueden ejecutar desde la línea de comandos del sistema operativo. La concha tiene dos conjuntos de comandos: uno para la manipulación de archivos (similar en propósito y la sintaxis de los comandos de Linux que muchos de nosotros conocemos y el amor) y uno para la administración Hadoop. La siguiente lista resume el primer conjunto de comandos para usted, lo que indica lo que hace el comando, así como el uso y ejemplos, en su caso.

gato: Rutas de origen Copias a stdout.
Uso: dfs HDFS -CAT URI [URI # 133-]
Ejemplo:

hdfs dfs -cat hdfs: /// archivo1
dfs HDFS -archivo de gato: /// archivo2 / user / Hadoop / archivo3

chgrp: Cambia la asociación grupo de archivos. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios. El usuario debe ser el propietario del archivo o el superusuario.

Uso: hdfs dfs -chgrp [-R] GRUPO URI [URI # 133-]

chmod: Cambia los permisos de los archivos. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios. El usuario debe ser el propietario del archivo o el superusuario

Uso: hdfs dfs -chmod [-R] URI [URI # 133-]

Ejemplo: hdfs dfs -chmod 777 prueba / data1.txt

chown: Cambia el propietario de los archivos. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios. El usuario debe ser el usuario root.

Uso: hdfs dfs -chown [-R] [EMAIL] [: [GRUPO]] URI [URI]

Ejemplo: hdfs dfs -chown -R hduser2 / opt / Hadoop / logs

copyFromLocal: Funciona de manera similar a la poner comando, excepto que la fuente está restringida a una referencia de archivo local.

Uso: hdfs dfs -copyFromLocal URI

Ejemplo: hdfs dfs -copyFromLocal de entrada / docs / hdfs data2.txt: //localhost/user/rosemary/data2.txt

copyToLocal: Funciona de manera similar a la obtener comando, excepto que el destino está restringida a una referencia de archivo local.

Uso: hdfs dfs -copyToLocal [-ignorecrc] [-CRc] URI

Ejemplo: hdfs dfs -copyToLocal data2.txt data2.copy.txt

contar: Cuenta el número de directorios, archivos y bytes en virtud de las rutas que coinciden con el patrón de archivo especificado.

Uso: hdfs dfs -count [q]

Ejemplo: hdfs dfs -count hdfs: //nn1.example.com/file1 hdfs: //nn2.example.com/file2

cp: Copia uno o más archivos de un origen especificado a un destino especificado. Si especifica múltiples fuentes, el destino especificado debe ser un directorio.

Uso: hdfs dfs -cp URI [URI # 133-]

Ejemplo: hdfs dfs -cp / user / Hadoop / archivo1 / user / Hadoop / archivo2 / user / Hadoop / dir

du: Muestra el tamaño del archivo especificado, o los tamaños de los archivos y directorios que están contenidos en el directorio especificado. Si especifica el -s opción, se muestra un resumen agregado de tamaño de los archivos en lugar de tamaño de los archivos individuales. Si especifica el -h opción, da formato a los tamaños de los archivos de una manera "legible".

Uso: hdfs dfs -du [-s] [-h] URI [URI # 133-]

Ejemplo: hdfs dfs -du / user / Hadoop / dir1 / user / Hadoop / archivo1

dus: Muestra un resumen de equivalente de archivo Sizes- a hdfs dfs -du -s.

Uso: hdfs dfs -dus

borrar: Vacía la papelera. Cuando se elimina un archivo, éste no se elimina inmediatamente del HDFS, pero se cambia el nombre a un archivo en el / basura directorio. Mientras el archivo permanece allí, se puede recuperar si cambia de opinión, aunque sólo la última copia del archivo borrado puede ser restaurado.

Uso: hdfs dfs -expunge

obtener: Copias archivos en el sistema de archivos local. Los archivos que no logran una comprobación de redundancia cíclica (CRC) todavía se pueden copiar si especifica el -ignorecrc opción. El CRC es una técnica común para la detección de errores de transmisión de datos. Archivos de suma de comprobación CRC tienen la .crc extensión y se utilizan para verificar la integridad de los datos de otro archivo. Estos archivos se copian si especifica el -crc opción.

Uso: hdfs dfs-get [-ignorecrc] [-CRc]

Ejemplo: hdfs dfs-get / user / Hadoop / archivo3 localfile

getmerge: Concatena los archivos src y escribe el resultado en el archivo de destino local especificado. Para agregar un carácter de nueva línea al final de cada archivo, especifique el addnl opción.

Uso: hdfs dfs -getmerge [addnl]

Ejemplo: hdfs dfs -getmerge / user / Hadoop / mydir / ~ / addnl result_file

ls: Devoluciones estadísticas de los archivos o directorios especificados.

Uso: hdfs dfs -ls

Ejemplo: hdfs dfs -ls / user / Hadoop / archivo1

LSR: Sirve como la versión recursiva de ls- similar al comando Unix ls -R.

Uso: hdfs dfs -lsr

Ejemplo: hdfs dfs -lsr / user / hadoop

mkdir: Crea directorios en uno o más específicos caminos. Su comportamiento es similar al Unix mkdir -p comando, lo que crea todos los directorios que conducen hasta el directorio especificado si no existen ya.

Uso: hdfs dfs -mkdir

Ejemplo: hdfs dfs -mkdir / user / Hadoop / dir5 / temp

moveFromLocal: Funciona de manera similar a la poner comandos, excepto que se elimina la fuente después de que se copia.

Uso: hdfs dfs -moveFromLocal

Ejemplo: hdfs dfs -moveFromLocal localfile1 localfile2 / user / Hadoop / hadoopdir

mv: Mueve uno o más archivos de un origen especificado a un destino especificado. Si especifica múltiples fuentes, el destino especificado debe ser un directorio. Mover archivos a través de los sistemas de archivos no está permitido.

Uso: hdfs dfs -mv URI [URI # 133-]

Ejemplo: hdfs dfs -mv / user / Hadoop / archivo1 / user / Hadoop / archivo2

poner: Copia los archivos del sistema de archivos local al sistema de archivos de destino. Este comando también se puede leer la entrada de stdin y escribir en el sistema de archivo de destino.

Uso: hdfs dfs -Poner ...

Ejemplo: hdfs dfs -Poner localfile1 localfile2 / user / Hadoop / hadoopdir- hdfs dfs -Poner - / user / Hadoop / hadoopdir (lee la entrada de stdin)

rm: Elimina uno o más archivos especificados. Este comando no elimina directorios vacíos o archivos. Para omitir la basura (si está habilitado) y eliminar los archivos especificados de inmediato, especifique el -skipTrash opción.

Uso: hdfs dfs -rm [-skipTrash] URI [URI # 133-]

Ejemplo: hdfs dfs -rm hdfs: //nn.example.com/file9

rmr: Sirve como la versión recursiva de -rm.

Uso: hdfs dfs -rmr [-skipTrash] URI [URI # 133-]

Ejemplo: hdfs dfs -rmr / user / Hadoop / dir

setrep: Cambia el factor de replicación para un archivo o directorio especificado. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios.

Uso: hdfs dfs -setrep [-R]

Ejemplo: hdfs dfs -setrep 3 -R / user / Hadoop / dir1

stat: Muestra información sobre la ruta especificada.

Uso: dfs HDFS -stat URI [URI # 133-]

Ejemplo: hdfs dfs -stat / user / Hadoop / dir1

cola: Muestra el último kilobyte de un archivo especificado stdout. La sintaxis apoya el Unix -F opción, que permite que el archivo especificado para ser monitoreado. A medida que se añaden nuevas líneas al archivo por otro proceso, tafligir actualiza la pantalla.

Uso: hdfs dfs -tail [-f] URI

Ejemplo: hdfs dfs -tail / user / Hadoop / dir1

prueba: Devuelve los atributos del archivo o directorio especificado. Especifica -e para determinar si el archivo o directorio existe- -z para determinar si el archivo o directorio está vacía- y -d para determinar si el URI es un directorio.

Uso: hdfs dfs-test - [EZD] URI

Ejemplo: hdfs dfs-test / user / Hadoop / dir1

texto: Emite un archivo de origen especificado en formato de texto. Formatos de archivo de entrada válidos son cremallera y TextRecordInputStream.

Uso: hdfs dfs -text

Ejemplo: hdfs dfs -text /user/hadoop/file8.zip

touchz: Crea un archivo nuevo, vacío de tamaño 0 en la ruta especificada.

Uso: hdfs dfs -touchz

Ejemplo: hdfs dfs -touchz / user / Hadoop / file12

Comandos de administración de Hadoop

Cualquier administrador de Hadoop que se precie debe dominar un amplio conjunto de comandos para la administración del clúster. La siguiente lista resume los comandos más importantes, lo que indica lo que hace el comando, así como la sintaxis y ejemplos. Conócelos, y usted avanzará un largo camino en el camino hacia la sabiduría Hadoop.

balancín: Ejecuta la utilidad de clúster de equilibrio. El valor umbral especificado, lo que representa un porcentaje de la capacidad del disco, se utiliza para sobrescribir el valor de umbral predeterminado (10 por ciento). Para detener el proceso de reequilibrio, pulse Ctrl + C.
Sintaxis: hadoop equilibrador [-threshold ]
Ejemplo: equilibrador hadoop -threshold 20
daemonlog: Obtiene o establece el nivel de registro para cada daemon (también conocido como un servicio). Se conecta a http: // host: puerto / log logLevel = nombre y grabados o establece el nivel de registro del demonio que se está ejecutando en host: puerto. Demonios Hadoop generan archivos de registro que le ayudan a determinar lo que está sucediendo en el sistema, y usted puede utilizar el daemonlog comando para cambiar temporalmente el nivel de registro de un componente de Hadoop cuando se está depurando el sistema. El cambio se hace efectivo cuando el demonio se reinicia.
Sintaxis: hadoop daemonlog -getlevel - hadoop daemonlog -setlevel
Ejemplo: hadoop daemonlog -getlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker- hadoop daemonlog -setlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker DEBUG
DataNode: Ejecuta el servicio DataNode HDFS, que coordina el almacenamiento en cada nodo esclavo. Si especifica -rollback, el DataNode se revierte a la versión anterior. Detenga el DataNode y distribuir la versión anterior Hadoop antes de usar esta opción.
Sintaxis: hadoop DataNode [-rollback]
Ejemplo: hadoop DataNode -rollback
dfsadmin: Ejecuta una serie de Hadoop Distributed File System (HDFS) operaciones administrativas. Utilizar el -Ayuda opción para ver una lista de todas las opciones soportadas. Las opciones genéricas son un conjunto común de opciones soportadas por varios comandos.
Sintaxis: Hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode entrar | dejar | llegar | espere] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress estado | detalles | fuerza] [nombre de archivo -metasave] [-setQuota ...] [-clrQuota ...] [-restoreFailedStorage True | false | cheque] [-help [cmd]]
mradmin: Ejecuta una serie de operaciones administrativas MapReduce. Utilizar el -Ayuda opción para ver una lista de todas las opciones soportadas. Una vez más, las opciones genéricas son un conjunto común de opciones que son compatibles con varios comandos. Si especifica -refreshServiceAcl, vuelve a cargar el archivo de política de autorización de nivel de servicio (JobTracker vuelve a cargar el archivo de política de autorización) - -refreshQueues Vuelve a cargar las listas de control de acceso de colas (ACL) y el estado (JobTracker recarga la -queues.xml mapred archivo)- -refreshNodes actualiza la información de los ejércitos en la JobTracker- -refreshUserToGroupsMappings refresca usuario a-grupos mappings- -refreshSuperUserGroupsConfiguration refreshes grupos de proxy de superusuario mappings- y -ayudar a [cmd] visualiza la ayuda para el comando determinado o para todos los comandos, si no se especifica ninguno.
Sintaxis: mradmin hadoop [GENERIC_OPTIONS] [-refreshServiceAcl] [-refreshQueues] [-refreshNodes] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-help [cmd]]
Ejemplo: hadoop mradmin -help -refreshNodes
JobTracker: Ejecuta el nodo MapReduce JobTracker, que coordina el sistema de procesamiento de datos para Hadoop. Si especifica -dumpConfiguration, la configuración que se utiliza por el JobTracker y la configuración de colas en formato JSON se escriben en la salida estándar.
Sintaxis: JobTracker hadoop [-dumpConfiguration]
Ejemplo: hadoop JobTracker -dumpConfiguration
NameNode: Ejecuta el NameNode, que coordina el almacenamiento para todo el clúster Hadoop. Si especifica -formato, se inicia el NameNode, el formato, y luego con stopped- -actualización, el NameNode se inicia con la opción de actualización después de una nueva versión de Hadoop es distributed- con -rollback, el NameNode se revierte a la versión anterior (recuerde que debe detener el clúster y distribuir la versión anterior Hadoop antes de usar esta opción) - con -ultimar, se elimina el estado previo del sistema de archivos, el más reciente actualización se hace permanente, rollback ya no está disponible, y el NameNode es stopped- finalmente, con -importCheckpoint, una imagen se carga desde el directorio de punto de control (según lo especificado por la fs.checkpoint.dir propiedad) y se guarda en el directorio actual.
Sintaxis: NameNode hadoop [-format] | [upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]
Ejemplo: hadoop NameNode -finalize
NameNode Secundaria: Ejecuta el NameNode secundaria. Si especifica -control, un puesto de control en el NameNode secundaria se realiza si el tamaño de la EditLog (un registro de transacciones que registra cada cambio que se produce a los metadatos del sistema de archivos) es mayor que o igual a fs.checkpoint.size- especificar -fuerza y un puesto de control se lleva a cabo independientemente de la EditLog tamaño- especificar -geteditsize y el tamaño EditLog se imprime.
Sintaxis: hadoop secondarynamenode [-checkpoint [fuerza]] | [-geteditsize]
Ejemplo: -geteditsize hadoop secondarynamenode
TaskTracker: Ejecuta un nodo MapReduce TaskTracker.
Sintaxis: TaskTracker hadoop
Ejemplo: TaskTracker hadoop

El Hadoop dfsadmin Opciones de comando

los dfsadmin herramientas son un conjunto específico de herramientas diseñadas para ayudar a erradicar las informaciones acerca de su sistema de archivos distribuido Hadoop (HDFS). Como bono adicional, puede utilizarlos para realizar algunas operaciones de administración en HDFS también.

Opción	Que hace
-informe	Proporciona información básica del sistema de archivos y estadísticas.
-safemode entrar \| dejar \| conseguir \| espere	Administra a salvo modo, un estado NameNode en que los cambios de espacio de nombre enel no se aceptan y bloques puede neitherreplicated ni borrar. El NameNode está en modo seguro duringstart arriba para que no se inicia prematuramente replicatingblocks a pesar de que ya son suficientes réplicas en thecluster.
-refreshNodes	Fuerza la NameNode volver a leer su configuración, incluyendo eldfs.hosts.exclude archivo. Los NameNodedecommissions nodos después de sus bloques se han replicado ontomachines que permanecerán activos.
-finalizeUpgrade	Completa el proceso de actualización HDFS. DataNodes y la NameNodedelete directorios de trabajo de la versión anterior.
-estado upgradeProgress \| detalles \| vigor	Pide a la norma o estado actual detallado de actualización thedistributed, o las fuerzas de la actualización para proceder.
-nombre metasave	Guarda estructuras de datos principales de la NameNode a Nombre del archivo en un directorio that'sspecified por el hadoop.log.dir property.File Nombre del archivo, que isoverwritten si ya existe, contiene una línea por cada ofthese artículos: a) DataNodes que están intercambiando latidos con theNameNode- b) bloques que están esperando a ser c) reproduce- blocksthat están siendo reproduce- y d) los bloques que están esperando para bedeleted.
-setquota ...	Establece un límite superior en el número de nombres de la directorytree. Puede establecer este límite (un entero largo) para uno o moredirectories simultáneamente.
-clrQuota...	Borra el límite superior del número de nombres de la directorytree. Puede borrar este límite para una o más directoriessimultaneously.
-restoreFailedStorage true \| falsa \| cheque	Activa o desactiva los intentos automáticos para restaurar réplicas failedstorage. Si una ubicación de almacenamiento no se hace availableagain, el sistema intenta restaurar ediciones y la fsimage en un puesto de control. La opción de verificación devuelve la configuración actual.
-ayudar a [cmd]	Muestra información de ayuda para el comando dado o para allcommands si no se especifica.

Sobre el autor

Hadoop distribuido sistema de archivos (HDFS) alta disponibilidad

A menudo en la infancia de Hadoop, una gran cantidad de debate se centra en la representación de la NameNode de un único punto de fallo. Hadoop, en general, ha tenido siempre una arquitectura robusta y el fracaso-tolerante, con la excepción de…

Hadoop de archivos distribuido comandos de shell del sistema

los Shell Hadoop es una familia de comandos que se pueden ejecutar desde la línea de comandos del sistema operativo. La concha tiene dos conjuntos de comandos: uno para la manipulación de archivos (similar en propósito y la sintaxis de los…

Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama…

Hadoop sistema de archivos distribuido (HDFS) para proyectos de grandes volúmenes de datos

El sistema de archivos distribuido Hadoop es un resistente, enfoque versátil, agrupadas a la gestión de archivos en un entorno de datos grande. HDFS no es el destino final de los archivos. Más bien, es un servicio de datos que ofrece un conjunto…

¿Cómo empezar a trabajar con la colmena apache

No hay mejor manera de ver lo que es lo que al instalar el software de la colmena y darle una prueba de funcionamiento. Al igual que con otras tecnologías en el ecosistema Hadoop, no se necesita mucho tiempo para empezar.Si usted tiene el tiempo y…

Entrada divide en MapReduce de Hadoop

La forma HDFS se ha establecido, se descompone muy grandes archivos en bloques grandes (por ejemplo, la medición de 128 MB), y almacena tres copias de estos bloques en diferentes nodos del clúster. HDFS no tiene conciencia del contenido de estos…

La gestión de grandes datos con Hadoop HDFS y MapReduce:

Hadoop, un marco de software de código abierto, utiliza HDFS (el sistema de archivos distribuido Hadoop) y MapReduce para analizar grandes volúmenes de datos en clústeres de hardware que la mercancía es, en un entorno de computación…

Gestión de archivos con los comandos del sistema de archivos hadoop

HDFS es uno de los dos componentes principales de la Hadoop de armazón y el otro es el paradigma computacional conocido como MapReduce. LA sistema de archivos distribuido es un sistema de archivos que gestiona el almacenamiento a través de un…

Replicar los bloques de datos en el sistema de archivos distribuido hadoop

Hadoop Distributed File System (HDFS) está diseñado para almacenar datos en barato y más fiable, hardware. Barato tiene un anillo atractivo a la misma, pero plantea preocupaciones sobre la fiabilidad del sistema en su conjunto, especialmente para…

Errores de nodo y disco esclavo en HDFS

Al igual que la muerte y los impuestos, fallos de disco (y dado el tiempo suficiente, incluso errores de nodo o bastidor), son inevitables en Hadoop Distributed File System (HDFS). En el ejemplo mostrado, incluso si un rack fallara, el grupo podría…

Nodos esclavos en el sistema de archivos distribuidos Hadoop (HDFS)

En un clúster Hadoop, cada nodo de datos (también conocido como un nodo esclavo) Se ejecuta un proceso de fondo llamado DataNode. Este proceso de fondo (también conocido como una demonio) Comprueba los trozos de datos que el sistema almacena en…

Nodos esclavos en racimos de Hadoop

En un universo Hadoop, nodos esclavos son los que los datos Hadoop se almacena y donde el procesamiento de datos se lleva a cabo. Los siguientes servicios permiten nodos esclavos para almacenar y procesar datos:NodeManager: Coordina los recursos…

maniqui-es.com » Computadoras y software » Big Data » Gestión de datos » Hadoop para dummies