¿Cómo extraer, transformar y cargar los datos para el análisis predictivo

Después de que se recogió inicialmente, los datos son por lo general en una dispersado estados reside en múltiples sistemas o bases de datos y debe ser analizada antes de la predicción de nada. Antes de que pueda utilizarlo para un modelo de análisis predictivo, usted tiene que consolidar en un solo lugar. También, usted no quiere trabajar en los datos que residen en los sistemas operativos - que está buscando problemas.

En su lugar, colocar una porción de ella en algún lugar donde se puede trabajar en él libremente sin afectar las operaciones. ETL (extracción, transformación y carga) es el proceso que alcanza ese estado deseable.

Muchas organizaciones tienen múltiples databases- su modelo predictivo probablemente utilizará los datos de todos ellos. ETL es el proceso que recoge toda la información necesaria y lo coloca en un entorno separado donde se puede ejecutar el análisis.

ETL no es, sin embargo, una vez y por todas OPERACIÓN por lo general es un proceso continuo que refresca los datos y la mantiene hasta la fecha. Asegúrese de ejecutar sus procesos ETL en la noche o en otras ocasiones cuando la carga en el sistema operativo es bajo.

  • La etapa de extracción recoge los datos deseados en su forma cruda de los sistemas operativos.

  • La etapa de transformación hace que los datos recogidos listo para ser utilizado en el modelo de predicción - la fusión de ella, la generación de los atributos derivados deseados, y poner los datos transformados en el formato adecuado para adaptarse a los requerimientos del negocio.

  • La etapa de carga coloca los datos en su lugar designado, en el que puede ejecutar su análisis en él - por ejemplo, en un mercado de datos, almacenamiento de datos, u otra base de datos.

Usted debe seguir un enfoque sistemático para construir sus procesos ETL para cumplir con los requerimientos del negocio. Es una buena práctica para mantener una copia de los datos originales en un área separada para que siempre pueda volver a ella en caso de un error interrumpe la transformación o las etapas de carga de los procesos.

Su proceso de ETL debe incorporar modularidad - separando las tareas y el cumplimiento de la obra en etapas. Este enfoque tiene ventajas en caso de que quiera volver a transformar o volver a cargar los datos, o si desea utilizar algunos de esos datos para un análisis diferente o para construir diferentes modelos predictivos. El diseño de su ETL debe ser capaz de adaptarse a los grandes cambios de requisitos de negocio - con cambios mínimos en su proceso de ETL.




» » » » ¿Cómo extraer, transformar y cargar los datos para el análisis predictivo