La transformación de datos en Hadoop
La idea de los motores de ETL de inspiración Hadoop ha ganado mucho terreno en los últimos años. Después de todo, Hadoop es un almacenamiento de datos flexible y plataforma de procesamiento que puede soportar grandes cantidades de datos y las operaciones sobre los datos. Al mismo tiempo, es tolerante a fallos, y ofrece la oportunidad para que la reducción de costos de capital y de software.
A pesar de la popularidad de Hadoop como motor ETL, sin embargo, muchas personas (incluyendo una famosa firma de analistas) no recomiendan Hadoop como la única pieza de la tecnología para su estrategia de ETL. Esto es en gran parte porque el desarrollo de los flujos de ETL requiere una gran cantidad de conocimientos acerca de los sistemas de su organización existentes de bases de datos, la naturaleza de los datos en sí, y los informes y las aplicaciones que dependen de ella.
En otras palabras, los DBAs, desarrolladores y arquitectos en su departamento de TI tendrán que familiarizarse suficientemente con Hadoop para implementar los flujos de ETL necesarias. Por ejemplo, una gran cantidad de codificación intensiva mano con el cerdo, Colmena, o incluso MapReduce puede ser necesario para crear incluso el más simple de los flujos de datos - que pone a su empresa en el gancho para esas habilidades si sigue este camino.
Usted tiene que codificar elementos tales como la depuración en paralelo, los servicios de gestión de aplicaciones (como el cheque señalador y error y manejo de eventos). Además, considere los requisitos empresariales como glossarization y ser capaz de mostrar el linaje de sus datos.
Hay requisitos reglamentarios para informes estándar que muchos de la industria, donde el linaje de datos es necesario- la organización informante debe ser capaz de demostrar en los puntos de datos en el informe venido, cómo los datos llegaron a usted, y lo que se ha hecho a los datos.
Incluso para los sistemas de bases de datos relacionales, ETL es complejo lo suficiente que hay productos especializados populares que proporcionan interfaces para la gestión y el desarrollo de los flujos de ETL. Algunos de estos productos ahora ayudar en ETL basada en Hadoop y otra de desarrollo basado en Hadoop. Sin embargo, en función de sus necesidades, puede que tenga que escribir algo de su propio código para apoyar a su lógica de transformación.