Hadoop para dummies

los Shell Hadoop

es una familia de comandos que se pueden ejecutar desde la línea de comandos del sistema operativo. La concha tiene dos conjuntos de comandos: uno para la manipulación de archivos (similar en propósito y la sintaxis de los comandos de Linux que muchos de nosotros conocemos y el amor) y uno para la administración Hadoop. La siguiente lista resume el primer conjunto de comandos para usted, lo que indica lo que hace el comando, así como el uso y ejemplos, en su caso.

  • gato: Rutas de origen Copias a stdout.

    Uso: dfs HDFS -CAT URI [URI # 133-]

    Ejemplo:

  • hdfs dfs -cat hdfs: /// archivo1

  • dfs HDFS -archivo de gato: /// archivo2 / user / Hadoop / archivo3

  • chgrp: Cambia la asociación grupo de archivos. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios. El usuario debe ser el propietario del archivo o el superusuario.

    Uso: hdfs dfs -chgrp [-R] GRUPO URI [URI # 133-]

  • chmod: Cambia los permisos de los archivos. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios. El usuario debe ser el propietario del archivo o el superusuario

    Uso: hdfs dfs -chmod [-R] URI [URI # 133-]

    Ejemplo: hdfs dfs -chmod 777 prueba / data1.txt

  • chown: Cambia el propietario de los archivos. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios. El usuario debe ser el usuario root.

    Uso: hdfs dfs -chown [-R] [EMAIL] [: [GRUPO]] URI [URI]

    Ejemplo: hdfs dfs -chown -R hduser2 / opt / Hadoop / logs

  • copyFromLocal: Funciona de manera similar a la poner comando, excepto que la fuente está restringida a una referencia de archivo local.

    Uso: hdfs dfs -copyFromLocal URI

    Ejemplo: hdfs dfs -copyFromLocal de entrada / docs / hdfs data2.txt: //localhost/user/rosemary/data2.txt

  • copyToLocal: Funciona de manera similar a la obtener comando, excepto que el destino está restringida a una referencia de archivo local.

    Uso: hdfs dfs -copyToLocal [-ignorecrc] [-CRc] URI

    Ejemplo: hdfs dfs -copyToLocal data2.txt data2.copy.txt

  • contar: Cuenta el número de directorios, archivos y bytes en virtud de las rutas que coinciden con el patrón de archivo especificado.

    Uso: hdfs dfs -count [q]

    Ejemplo: hdfs dfs -count hdfs: //nn1.example.com/file1 hdfs: //nn2.example.com/file2

  • cp: Copia uno o más archivos de un origen especificado a un destino especificado. Si especifica múltiples fuentes, el destino especificado debe ser un directorio.

    Uso: hdfs dfs -cp URI [URI # 133-]

    Ejemplo: hdfs dfs -cp / user / Hadoop / archivo1 / user / Hadoop / archivo2 / user / Hadoop / dir

  • du: Muestra el tamaño del archivo especificado, o los tamaños de los archivos y directorios que están contenidos en el directorio especificado. Si especifica el -s opción, se muestra un resumen agregado de tamaño de los archivos en lugar de tamaño de los archivos individuales. Si especifica el -h opción, da formato a los tamaños de los archivos de una manera "legible".

    Uso: hdfs dfs -du [-s] [-h] URI [URI # 133-]

    Ejemplo: hdfs dfs -du / user / Hadoop / dir1 / user / Hadoop / archivo1

  • dus: Muestra un resumen de equivalente de archivo Sizes- a hdfs dfs -du -s.

    Uso: hdfs dfs -dus

  • borrar: Vacía la papelera. Cuando se elimina un archivo, éste no se elimina inmediatamente del HDFS, pero se cambia el nombre a un archivo en el / basura directorio. Mientras el archivo permanece allí, se puede recuperar si cambia de opinión, aunque sólo la última copia del archivo borrado puede ser restaurado.

    Uso: hdfs dfs -expunge

  • obtener: Copias archivos en el sistema de archivos local. Los archivos que no logran una comprobación de redundancia cíclica (CRC) todavía se pueden copiar si especifica el -ignorecrc opción. El CRC es una técnica común para la detección de errores de transmisión de datos. Archivos de suma de comprobación CRC tienen la .crc extensión y se utilizan para verificar la integridad de los datos de otro archivo. Estos archivos se copian si especifica el -crc opción.

    Uso: hdfs dfs-get [-ignorecrc] [-CRc]

    Ejemplo: hdfs dfs-get / user / Hadoop / archivo3 localfile

  • getmerge: Concatena los archivos src y escribe el resultado en el archivo de destino local especificado. Para agregar un carácter de nueva línea al final de cada archivo, especifique el addnl opción.

    Uso: hdfs dfs -getmerge [addnl]

    Ejemplo: hdfs dfs -getmerge / user / Hadoop / mydir / ~ / addnl result_file

  • ls: Devoluciones estadísticas de los archivos o directorios especificados.

    Uso: hdfs dfs -ls

    Ejemplo: hdfs dfs -ls / user / Hadoop / archivo1

  • LSR: Sirve como la versión recursiva de ls- similar al comando Unix ls -R.

    Uso: hdfs dfs -lsr

    Ejemplo: hdfs dfs -lsr / user / hadoop

  • mkdir: Crea directorios en uno o más específicos caminos. Su comportamiento es similar al Unix mkdir -p comando, lo que crea todos los directorios que conducen hasta el directorio especificado si no existen ya.

    Uso: hdfs dfs -mkdir

    Ejemplo: hdfs dfs -mkdir / user / Hadoop / dir5 / temp

  • moveFromLocal: Funciona de manera similar a la poner comandos, excepto que se elimina la fuente después de que se copia.

    Uso: hdfs dfs -moveFromLocal

    Ejemplo: hdfs dfs -moveFromLocal localfile1 localfile2 / user / Hadoop / hadoopdir

  • mv: Mueve uno o más archivos de un origen especificado a un destino especificado. Si especifica múltiples fuentes, el destino especificado debe ser un directorio. Mover archivos a través de los sistemas de archivos no está permitido.

    Uso: hdfs dfs -mv URI [URI # 133-]

    Ejemplo: hdfs dfs -mv / user / Hadoop / archivo1 / user / Hadoop / archivo2

  • poner: Copia los archivos del sistema de archivos local al sistema de archivos de destino. Este comando también se puede leer la entrada de stdin y escribir en el sistema de archivo de destino.

    Uso: hdfs dfs -Poner ...

    Ejemplo: hdfs dfs -Poner localfile1 localfile2 / user / Hadoop / hadoopdir- hdfs dfs -Poner - / user / Hadoop / hadoopdir (lee la entrada de stdin)

  • rm: Elimina uno o más archivos especificados. Este comando no elimina directorios vacíos o archivos. Para omitir la basura (si está habilitado) y eliminar los archivos especificados de inmediato, especifique el -skipTrash opción.

    Uso: hdfs dfs -rm [-skipTrash] URI [URI # 133-]

    Ejemplo: hdfs dfs -rm hdfs: //nn.example.com/file9

  • rmr: Sirve como la versión recursiva de -rm.

    Uso: hdfs dfs -rmr [-skipTrash] URI [URI # 133-]

    Ejemplo: hdfs dfs -rmr / user / Hadoop / dir

  • setrep: Cambia el factor de replicación para un archivo o directorio especificado. Con -R, hace que el cambio de forma recursiva a través de la estructura de directorios.

    Uso: hdfs dfs -setrep [-R]

    Ejemplo: hdfs dfs -setrep 3 -R / user / Hadoop / dir1

  • stat: Muestra información sobre la ruta especificada.

    Uso: dfs HDFS -stat URI [URI # 133-]

    Ejemplo: hdfs dfs -stat / user / Hadoop / dir1

  • cola: Muestra el último kilobyte de un archivo especificado stdout. La sintaxis apoya el Unix -F opción, que permite que el archivo especificado para ser monitoreado. A medida que se añaden nuevas líneas al archivo por otro proceso, tafligir actualiza la pantalla.

    Uso: hdfs dfs -tail [-f] URI

    Ejemplo: hdfs dfs -tail / user / Hadoop / dir1

  • prueba: Devuelve los atributos del archivo o directorio especificado. Especifica -e para determinar si el archivo o directorio existe- -z para determinar si el archivo o directorio está vacía- y -d para determinar si el URI es un directorio.

    Uso: hdfs dfs-test - [EZD] URI

    Ejemplo: hdfs dfs-test / user / Hadoop / dir1

  • texto: Emite un archivo de origen especificado en formato de texto. Formatos de archivo de entrada válidos son cremallera y TextRecordInputStream.

    Uso: hdfs dfs -text

    Ejemplo: hdfs dfs -text /user/hadoop/file8.zip

  • touchz: Crea un archivo nuevo, vacío de tamaño 0 en la ruta especificada.

    Uso: hdfs dfs -touchz

    Ejemplo: hdfs dfs -touchz / user / Hadoop / file12

  • Comandos de administración de Hadoop

    Cualquier administrador de Hadoop que se precie debe dominar un amplio conjunto de comandos para la administración del clúster. La siguiente lista resume los comandos más importantes, lo que indica lo que hace el comando, así como la sintaxis y ejemplos. Conócelos, y usted avanzará un largo camino en el camino hacia la sabiduría Hadoop.

    • balancín: Ejecuta la utilidad de clúster de equilibrio. El valor umbral especificado, lo que representa un porcentaje de la capacidad del disco, se utiliza para sobrescribir el valor de umbral predeterminado (10 por ciento). Para detener el proceso de reequilibrio, pulse Ctrl + C.

      Sintaxis: hadoop equilibrador [-threshold ]

      Ejemplo: equilibrador hadoop -threshold 20

    • daemonlog: Obtiene o establece el nivel de registro para cada daemon (también conocido como un servicio). Se conecta a http: // host: puerto / log logLevel = nombre y grabados o establece el nivel de registro del demonio que se está ejecutando en host: puerto. Demonios Hadoop generan archivos de registro que le ayudan a determinar lo que está sucediendo en el sistema, y ​​usted puede utilizar el daemonlog comando para cambiar temporalmente el nivel de registro de un componente de Hadoop cuando se está depurando el sistema. El cambio se hace efectivo cuando el demonio se reinicia.

      Sintaxis: hadoop daemonlog -getlevel - hadoop daemonlog -setlevel

      Ejemplo: hadoop daemonlog -getlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker- hadoop daemonlog -setlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker DEBUG

    • DataNode: Ejecuta el servicio DataNode HDFS, que coordina el almacenamiento en cada nodo esclavo. Si especifica -rollback, el DataNode se revierte a la versión anterior. Detenga el DataNode y distribuir la versión anterior Hadoop antes de usar esta opción.

      Sintaxis: hadoop DataNode [-rollback]

      Ejemplo: hadoop DataNode -rollback

    • dfsadmin: Ejecuta una serie de Hadoop Distributed File System (HDFS) operaciones administrativas. Utilizar el -Ayuda opción para ver una lista de todas las opciones soportadas. Las opciones genéricas son un conjunto común de opciones soportadas por varios comandos.

      Sintaxis: Hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode entrar | dejar | llegar | espere] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress estado | detalles | fuerza] [nombre de archivo -metasave] [-setQuota ...] [-clrQuota ...] [-restoreFailedStorage True | false | cheque] [-help [cmd]]

    • mradmin: Ejecuta una serie de operaciones administrativas MapReduce. Utilizar el -Ayuda opción para ver una lista de todas las opciones soportadas. Una vez más, las opciones genéricas son un conjunto común de opciones que son compatibles con varios comandos. Si especifica -refreshServiceAcl, vuelve a cargar el archivo de política de autorización de nivel de servicio (JobTracker vuelve a cargar el archivo de política de autorización) - -refreshQueues Vuelve a cargar las listas de control de acceso de colas (ACL) y el estado (JobTracker recarga la -queues.xml mapred archivo)- -refreshNodes actualiza la información de los ejércitos en la JobTracker- -refreshUserToGroupsMappings refresca usuario a-grupos mappings- -refreshSuperUserGroupsConfiguration refreshes grupos de proxy de superusuario mappings- y -ayudar a [cmd] visualiza la ayuda para el comando determinado o para todos los comandos, si no se especifica ninguno.

      Sintaxis: mradmin hadoop [GENERIC_OPTIONS] [-refreshServiceAcl] [-refreshQueues] [-refreshNodes] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-help [cmd]]

      Ejemplo: hadoop mradmin -help -refreshNodes

    • JobTracker: Ejecuta el nodo MapReduce JobTracker, que coordina el sistema de procesamiento de datos para Hadoop. Si especifica -dumpConfiguration, la configuración que se utiliza por el JobTracker y la configuración de colas en formato JSON se escriben en la salida estándar.

      Sintaxis: JobTracker hadoop [-dumpConfiguration]

      Ejemplo: hadoop JobTracker -dumpConfiguration

    • NameNode: Ejecuta el NameNode, que coordina el almacenamiento para todo el clúster Hadoop. Si especifica -formato, se inicia el NameNode, el formato, y luego con stopped- -actualización, el NameNode se inicia con la opción de actualización después de una nueva versión de Hadoop es distributed- con -rollback, el NameNode se revierte a la versión anterior (recuerde que debe detener el clúster y distribuir la versión anterior Hadoop antes de usar esta opción) - con -ultimar, se elimina el estado previo del sistema de archivos, el más reciente actualización se hace permanente, rollback ya no está disponible, y el NameNode es stopped- finalmente, con -importCheckpoint, una imagen se carga desde el directorio de punto de control (según lo especificado por la fs.checkpoint.dir propiedad) y se guarda en el directorio actual.

      Sintaxis: NameNode hadoop [-format] | [upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]

      Ejemplo: hadoop NameNode -finalize

    • NameNode Secundaria: Ejecuta el NameNode secundaria. Si especifica -control, un puesto de control en el NameNode secundaria se realiza si el tamaño de la EditLog (un registro de transacciones que registra cada cambio que se produce a los metadatos del sistema de archivos) es mayor que o igual a fs.checkpoint.size- especificar -fuerza y un puesto de control se lleva a cabo independientemente de la EditLog tamaño- especificar -geteditsize y el tamaño EditLog se imprime.

      Sintaxis: hadoop secondarynamenode [-checkpoint [fuerza]] | [-geteditsize]

      Ejemplo: -geteditsize hadoop secondarynamenode

    • TaskTracker: Ejecuta un nodo MapReduce TaskTracker.

      Sintaxis: TaskTracker hadoop

      Ejemplo: TaskTracker hadoop

    El Hadoop dfsadmin Opciones de comando

    los dfsadmin herramientas son un conjunto específico de herramientas diseñadas para ayudar a erradicar las informaciones acerca de su sistema de archivos distribuido Hadoop (HDFS). Como bono adicional, puede utilizarlos para realizar algunas operaciones de administración en HDFS también.

    OpciónQue hace
    -informeProporciona información básica del sistema de archivos y estadísticas.
    -safemode entrar | dejar | conseguir | espereAdministra a salvo modo, un estado NameNode en que los cambios de espacio de nombre enel no se aceptan y bloques puede neitherreplicated ni borrar. El NameNode está en modo seguro duringstart arriba para que no se inicia prematuramente replicatingblocks a pesar de que ya son suficientes réplicas en thecluster.
    -refreshNodesFuerza la NameNode volver a leer su configuración, incluyendo eldfs.hosts.exclude archivo. Los NameNodedecommissions nodos después de sus bloques se han replicado ontomachines que permanecerán activos.
    -finalizeUpgradeCompleta el proceso de actualización HDFS. DataNodes y la NameNodedelete directorios de trabajo de la versión anterior.
    -estado upgradeProgress | detalles | vigorPide a la norma o estado actual detallado de actualización thedistributed, o las fuerzas de la actualización para proceder.
    -nombre metasaveGuarda estructuras de datos principales de la NameNode a Nombre del archivo en un directorio that'sspecified por el hadoop.log.dir property.File Nombre del archivo, que isoverwritten si ya existe, contiene una línea por cada ofthese artículos: a) DataNodes que están intercambiando latidos con theNameNode- b) bloques que están esperando a ser c) reproduce- blocksthat están siendo reproduce- y d) los bloques que están esperando para bedeleted.
    -setquota ...Establece un límite superior en el número de nombres de la directorytree. Puede establecer este límite (un entero largo) para uno o moredirectories simultáneamente.
    -clrQuota...Borra el límite superior del número de nombres de la directorytree. Puede borrar este límite para una o más directoriessimultaneously.
    -restoreFailedStorage true | falsa | chequeActiva o desactiva los intentos automáticos para restaurar réplicas failedstorage. Si una ubicación de almacenamiento no se hace availableagain, el sistema intenta restaurar ediciones y la fsimage en un puesto de control. La opción de verificación devuelve la configuración actual.
    -ayudar a [cmd]Muestra información de ayuda para el comando dado o para allcommands si no se especifica.