Cómo preparar los datos para un modelo de análisis predictivo

Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de pasos es la siguiente:

Conteúdo

Underfitting
Sobreajuste

Identificar las fuentes de datos.
Los datos podrían estar en diferentes formatos o residir en varios lugares.
Identificar cómo va a acceder a esos datos.
A veces, lo que se necesita para adquirir datos de terceros, o datos pertenecientes a una división diferente en su organización, etc.
Considere la posibilidad de que las variables a incluir en su análisis.
Un enfoque estándar es empezar con una amplia gama de variables y eliminar los que ofrecen ningún valor predictivo para el modelo.
Determine si desea utilizar las variables derivadas.
En muchos casos, una variable derivada (por ejemplo, la relación precio-por-ganancia utilizado para analizar precios de las acciones) tendría un mayor impacto directo en el modelo de lo que lo haría la variable prima.
Explora la calidad de sus datos, tratando de entender tanto su estado y las limitaciones.
La precisión de las predicciones del modelo se relaciona directamente con las variables que seleccione y la calidad de sus datos. Usted quiere responder a algunas preguntas de los datos específicos en este punto:
¿Es la información completa?
¿Tiene algún valores atípicos?
¿Los datos tienen que limpiar?
¿Es necesario rellenar valores perdidos, mantenerlos como están, o eliminar por completo?

La comprensión de sus datos y sus propiedades puede ayudarle a elegir el algoritmo que será más útil en la construcción de su modelo. Por ejemplo:

Algoritmos de regresión se pueden utilizar para analizar los datos de series de tiempo.
Algoritmos de clasificación se pueden utilizar para analizar los datos discreta.
Algoritmos de asociación se pueden utilizar para los datos con atributos correlacionados.

El conjunto de datos utilizados para entrenar y probar el modelo debe contener información comercial relevante para responder el problema que estamos tratando de resolver. Si su objetivo es (por ejemplo) para determinar qué cliente es probable que batir, entonces el conjunto de datos que elija debe contener información sobre los clientes que han batido en el pasado, además de los clientes que no tienen.

Algunos modelos creados para extraer datos y dar sentido a sus relaciones subyacentes - por ejemplo, aquellos construidos con algoritmos de agrupamiento - necesidad no tiene un resultado final en mente.

Se plantean dos problemas cuando se trata de datos que usted está construyendo su modelo: underfitting y sobreajuste.

Underfitting

Underfitting es cuando el modelo no puede detectar ningún relaciones en sus datos. Esto suele ser una indicación de que las variables esenciales - los que tienen poder predictivo - no fueron incluidos en el análisis. Por ejemplo, un análisis de valores que incluye sólo los datos de un mercado alcista (en precios de las acciones globales están subiendo) no da cuenta de las crisis o las burbujas que pueden traer importantes correcciones en el rendimiento global de las acciones.

El no poder incluir datos que abarca tanto toro y mercados bajistas (cuando precios de las acciones globales están cayendo) mantiene el modelo de producción de la mejor selección de la cartera sea posible.

Sobreajuste

Sobreajuste es cuando su modelo incluye datos que no tiene poder predictivo pero sólo es específico para el conjunto de datos que está analizando. ruido - variaciones aleatorias en el conjunto de datos - pueden encontrar su camino en el modelo, de modo que la ejecución del modelo en un conjunto de datos diferente produce una importante caída en el rendimiento y la precisión predictiva del modelo. La barra lateral que acompaña un ejemplo.

Si su modelo funciona muy bien en un conjunto de datos en particular y sólo halagüeños cuando lo prueba en un conjunto de datos diferente, sobreajuste sospechoso.

Sobre el autor

Cómo construir desplegables modelos predictivos de análisis

La construcción de un modelo para el análisis predictivo no se traduce automáticamente en la implementación de ese modelo en producción. Un modelo puede predecir con éxito y precisión el siguiente resultado de negocio y todavía no sea…

¿Cómo decidir si desea mantener los valores atípicos en el análisis predictivo

La decisión de incluir valores atípicos en el análisis - o excluirlos - tendrá implicaciones para su modelo de análisis predictivo. Mantener los valores atípicos como parte de los datos de su análisis puede conducir a un modelo que no es…

¿Cómo evaluar y actualizar su modelo de análisis predictivo

Su objetivo, por supuesto, es la construcción de un modelo de análisis predictivo que puede resolver efectivamente los objetivos de negocio que fue construido para. Prepárese para pasar algún tiempo la evaluación de la precisión de las…

Cómo ir a vivir con el modelo de análisis predictivo

Después de desarrollar su modelo de análisis predictivo y con éxito; para ello, ya está listo para implementarlo en el entorno de producción. El objetivo final de un proyecto de análisis predictivo es poner el modelo se construye en el proceso…

Cómo identificar los datos para el análisis predictivo

Para su proyecto de análisis predictivo, que necesitará para identificar fuentes apropiadas de datos, agrupar los datos de esas fuentes, y lo puso en un formato estructurado, bien organizado. Estas tareas pueden ser muy difícil y probablemente…

Cómo mantener predictivo análisis de datos al día

Después de la etapa de carga de extraer, transformar, cargar, después de obtener sus datos en esa base de datos separada, data mart, o almacén para el análisis, usted necesita para mantener los datos frescos por lo que los modeladores pueden…

Cómo nuevas predicciones analíticas con regresión r

Para hacer predicciones analíticas con nuevos datos, sólo tiene que utilizar la función con una lista de los siete valores de los atributos. El siguiente código hace ese trabajo:> NewPrediction lt; - predecir (modelo,
lista (cilindros =…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Cómo preparar los datos en una clasificación r análisis predictivo modelo

Con el fin de realizar un análisis predictivo, usted tiene que obtener los datos en una forma que el algoritmo puede utilizar para construir un modelo. Para hacer eso, usted tiene que tomar un poco de tiempo para entender los datos y conocer su…

Cómo anotar sus predicciones analíticas precisión

Al analizar la calidad de un modelo predictivo, usted querrá medir su precisión. El un pronóstico más preciso el modelo hace, más útil que es para la empresa, que es una indicación de su calidad. Todo esto es bueno - a excepción de cuando el…

Cómo probar el modelo de análisis predictivo

Para poner a prueba el modelo de análisis predictivo que construiste, es necesario dividir el conjunto de datos en dos conjuntos: formación y la prueba conjuntos de datos. Estos conjuntos de datos deben ser seleccionados al azar y deben ser una…

Cómo utilizar supuestos apropiadamente en el análisis predictivo

A pesar de todo lo que te han dicho sobre los supuestos que causan problemas, algunas suposiciones se mantienen en el centro de cualquier modelo de análisis predictivo. Esos supuestos aparecen en las variables seleccionadas y consideradas en el…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Cómo preparar los datos para un modelo de análisis predictivo