Hadoop Sqoop para grandes datos

Sqoop (SQL-a-Hadoop) es una herramienta de datos grande que ofrece la capacidad de extraer datos de los almacenes de datos no Hadoop, transformar los datos en una forma utilizable por Hadoop, y luego cargar los datos en HDFS. Este proceso se llama ETL, de extracción, transformación y carga.

Mientras que obtener datos en Hadoop es crítico para el procesamiento utilizando MapReduce, también es fundamental para obtener los datos de Hadoop y en una fuente de datos externa para su uso en otros tipos de aplicaciones. Sqoop es capaz de hacer esto también.

Mientras que a veces es necesario para mover los datos en tiempo real, es muy a menudo necesario para cargar o descargar datos de forma masiva. Como cerdo, Sqoop es un intérprete de línea de comandos. Escribes comandos Sqoop en el intérprete y se ejecutan de una en una. Cuatro características principales se encuentran en Sqoop:

  • Importación a granel: Sqoop puede importar tablas individuales o bases de datos enteras en HDFS. Los datos se almacenan en los directorios nativos y archivos en el sistema de archivos HDFS.

  • Entrada directa: Sqoop puede importar y trazar las bases de datos directamente en la colmena y HBase SQL (relacional).

  • La interacción de datos: Sqoop puede generar clases Java para que pueda interactuar con los datos mediante programación.

  • Exportación de datos: Sqoop puede exportar los datos directamente de HDFS en una base de datos relacional utilizando una definición de la tabla de destino en función de las características específicas de la base de datos de destino.

Sqoop trabaja observando la base de datos que desea importar y seleccionar una función de importación apropiado para los datos de origen. Después de que se reconoce la entrada, a continuación, lee los metadatos de la tabla (o base de datos) y crea una definición de clase de los requisitos de entrada.

Usted puede forzar Sqoop que ser muy selectivo para que usted obtenga sólo las columnas que usted está buscando antes de entrada en lugar de hacer toda una entrada y luego en busca de sus datos. Esto puede ahorrar un tiempo considerable. La importación real de la base de datos externa para HDFS se realiza un trabajo MapReduce creado tras bambalinas por Sqoop.

Sqoop es una herramienta eficaz para los no programadores. El otro elemento importante a destacar es la dependencia en las tecnologías subyacentes como HDFS y MapReduce. Usted ve esto en varias ocasiones a lo largo del elemento del ecosistema Hadoop.




» » » » Hadoop Sqoop para grandes datos