Importación de datos con Sqoop

Listo para sumergirse en la importación de datos con Sqoop? Empieza por tomar un vistazo a la figura, que ilustra los pasos en una operación típica Sqoop importación de un RDBMS o un sistema de almacenamiento de datos. Nada demasiado complicado aquí - sólo una tabla de datos de los productos típicos de un (típico) empresa ficticia importado en un típico clúster Hadoop de un sistema de gestión típica de datos (DMS).

imagen0.jpg

Durante la Etapa 1, Sqoop utiliza el conector adecuado para recuperar los metadatos de tabla Productos de las DMS de destino. (Los metadatos se utiliza para asignar los tipos de datos de la tabla Productos de tipos de datos en el lenguaje Java.)

Paso 2 a continuación, utiliza estos metadatos para generar y compilar una clase Java que será utilizado por una o más tareas mapa para importar las filas reales de la tabla productos. Sqoop salva la clase Java generada al espacio temporal oa un directorio que especifique de manera que usted puede aprovechar para el posterior procesamiento de los registros de datos.

El código Java Sqoop generada que se guarda para ti es como el regalo que sigue dando! Con este código, Sqoop importa registros de la DMS y los almacena para HDFS utilizando uno de los tres formatos que usted puede escoger: Avro datos binarios, archivos de secuencias binarias, o archivos de texto delimitados. Después, este código está disponible para usted para el procesamiento posterior de los datos.

Archivos de secuencia son una elección natural si está importando tipos de datos binarios y usted necesitará la clase Java generado para serializar y deserializar los datos más tarde - tal vez para el procesamiento MapReduce o exportar. Datos Avro - basado en propio marco de serialización de Apache - es útil si necesita interactuar con otras aplicaciones después de la importación de HDFS.

Si opta por almacenar los datos importados en formato de texto delimitado, puede encontrar el código Java generado valiosa más adelante a medida que analizar y realizar conversiones de formato de datos en sus nuevos datos. Verás que el código generado también le ayuda a combinar conjuntos de datos después de las operaciones de importación Sqoop, y el código Java generado puede ayudar a evitar la ambigüedad en el tratamiento de los datos de texto delimitado.

Por último, durante el Paso 3, Sqoop divide los registros de datos de la tabla de los productos a través de una serie de tareas de mapas (con el número de cartógrafos opcionalmente especificados por el usuario) e importa los datos de la tabla en HDFS, Colmena, o HBase.




» » » » Importación de datos con Sqoop