Cómo preparar los datos para un modelo de análisis predictivo
Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de pasos es la siguiente:
Conteúdo
Identificar las fuentes de datos.
Los datos podrían estar en diferentes formatos o residir en varios lugares.
Identificar cómo va a acceder a esos datos.
A veces, lo que se necesita para adquirir datos de terceros, o datos pertenecientes a una división diferente en su organización, etc.
Considere la posibilidad de que las variables a incluir en su análisis.
Un enfoque estándar es empezar con una amplia gama de variables y eliminar los que ofrecen ningún valor predictivo para el modelo.
Determine si desea utilizar las variables derivadas.
En muchos casos, una variable derivada (por ejemplo, la relación precio-por-ganancia utilizado para analizar precios de las acciones) tendría un mayor impacto directo en el modelo de lo que lo haría la variable prima.
Explora la calidad de sus datos, tratando de entender tanto su estado y las limitaciones.
La precisión de las predicciones del modelo se relaciona directamente con las variables que seleccione y la calidad de sus datos. Usted quiere responder a algunas preguntas de los datos específicos en este punto:
¿Es la información completa?
¿Tiene algún valores atípicos?
¿Los datos tienen que limpiar?
¿Es necesario rellenar valores perdidos, mantenerlos como están, o eliminar por completo?
La comprensión de sus datos y sus propiedades puede ayudarle a elegir el algoritmo que será más útil en la construcción de su modelo. Por ejemplo:
Algoritmos de regresión se pueden utilizar para analizar los datos de series de tiempo.
Algoritmos de clasificación se pueden utilizar para analizar los datos discreta.
Algoritmos de asociación se pueden utilizar para los datos con atributos correlacionados.
El conjunto de datos utilizados para entrenar y probar el modelo debe contener información comercial relevante para responder el problema que estamos tratando de resolver. Si su objetivo es (por ejemplo) para determinar qué cliente es probable que batir, entonces el conjunto de datos que elija debe contener información sobre los clientes que han batido en el pasado, además de los clientes que no tienen.
Algunos modelos creados para extraer datos y dar sentido a sus relaciones subyacentes - por ejemplo, aquellos construidos con algoritmos de agrupamiento - necesidad no tiene un resultado final en mente.
Se plantean dos problemas cuando se trata de datos que usted está construyendo su modelo: underfitting y sobreajuste.
Underfitting
Underfitting es cuando el modelo no puede detectar ningún relaciones en sus datos. Esto suele ser una indicación de que las variables esenciales - los que tienen poder predictivo - no fueron incluidos en el análisis. Por ejemplo, un análisis de valores que incluye sólo los datos de un mercado alcista (en precios de las acciones globales están subiendo) no da cuenta de las crisis o las burbujas que pueden traer importantes correcciones en el rendimiento global de las acciones.
El no poder incluir datos que abarca tanto toro y mercados bajistas (cuando precios de las acciones globales están cayendo) mantiene el modelo de producción de la mejor selección de la cartera sea posible.
Sobreajuste
Sobreajuste es cuando su modelo incluye datos que no tiene poder predictivo pero sólo es específico para el conjunto de datos que está analizando. ruido - variaciones aleatorias en el conjunto de datos - pueden encontrar su camino en el modelo, de modo que la ejecución del modelo en un conjunto de datos diferente produce una importante caída en el rendimiento y la precisión predictiva del modelo. La barra lateral que acompaña un ejemplo.
Si su modelo funciona muy bien en un conjunto de datos en particular y sólo halagüeños cuando lo prueba en un conjunto de datos diferente, sobreajuste sospechoso.