Cómo utilizar la curva de ajuste en el análisis predictivo

Ajuste de curvas

Conteúdo

Los males de sobreajuste
¿cómo evitar sobreajuste

es un proceso utilizado en el análisis predictivo en el que el objetivo es crear una curva que representa la función matemática que mejor se ajusta a los puntos de datos reales (originales) en una serie de datos.

La curva puede o bien pasar a través de cada punto de datos o permanecer dentro de la mayor parte de los datos, haciendo caso omiso de algunos puntos de datos con la esperanza de sacar las tendencias de los datos. En cualquier caso, una función matemática única se asigna a todo el cuerpo de datos, con el objetivo de ajustar todos los puntos de datos en una curva que delinea las tendencias y ayudas de predicción.

El ajuste de curvas se puede lograr en una de tres maneras:

Al encontrar un ajuste exacto para cada punto de datos (un proceso llamado interpolación)
Si se aloja dentro de la mayor parte de los datos sin tener en cuenta algunos de los puntos de datos con la esperanza de tendencias de dibujo de los datos
Mediante el empleo de suavizado de datos para llegar a una función que representa el gráfico suavizado

El ajuste de curvas se puede utilizar para rellenar posibles puntos de datos para reemplazar los valores perdidos o ayudar a los analistas visualizar los datos.

Cuando se trabaja para generar un modelo de análisis predictivo, evite la adaptación de su modelo para adaptarse a su muestra de datos perfectamente. Este modelo se producirá un error - miserablemente - predecir conjuntos de datos aún variables similares fuera de la muestra de datos. Ajuste de un modelo muy de cerca a una muestra de datos en particular es un error clásico llamado sobreajuste.

Los males de sobreajuste

En esencia, sobreajuste un modelo es lo que pasa cuando overtrain el modelo para representar solamente los datos de la muestra - que no es una buena representación de los datos en su conjunto. Sin un conjunto de datos más realistas para seguir adelante, el modelo se puede entonces plagado de errores y riesgos cuando se va operativo - y las consecuencias para su negocio puede ser grave.

Sobreajuste un modelo es una trampa común porque la gente quiere crear modelos que trabajan - y así se ven tentados a mantener las variables de ajustes y parámetros hasta que el modelo funciona perfectamente - en muy pocos datos. Errar es humano. Afortunadamente, también es humano para crear soluciones realistas.

Para evitar sobreajuste su modelo para el conjunto de datos de la muestra, asegúrese de tener un cuerpo de datos de prueba disponibles que es separado de sus datos de ejemplo. Entonces se puede medir el rendimiento de su modelo de forma independiente antes de hacer el modelo operativo.

Así, una salvaguardia general contra sobreajuste es dividir los datos en dos partes: la formación de datos de datos y de prueba. El rendimiento del modelo frente a los datos de la prueba le dirá mucho acerca de si el modelo está listo para el mundo real.

Otra buena práctica es asegurarse de que los datos representan la población más grande del dominio que está modelando para. Todo un modelo de sobreentrenamiento sabe es las características específicas de la muestra de datos que está entrenado. Si se entrena el modelo sólo en (digamos) las ventas de raquetas de nieve en invierno, no se sorprenda si fracasa miserablemente cuando se ejecuta de nuevo en los datos de cualquier otra temporada.

¿Cómo evitar sobreajuste

Vale la pena repetir: Demasiado ajustes del modelo es apto para dar lugar a sobreajuste. Una de estas pellizco está incluyendo demasiadas variables en el análisis. Mantenga esas variables al mínimo. Sólo incluir variables que se ven como absolutamente necesario - los que creen que va a hacer una diferencia significativa en el resultado.

Esta visión sólo proviene de un profundo conocimiento del dominio de negocio que se encuentre. Ahí es donde la experiencia de los expertos de dominio puede ayudarle a no caer en la trampa de sobreajuste.

He aquí una lista de las mejores prácticas para ayudar a evitar el sobreajuste su modelo:

Elija un conjunto de datos para trabajar con esto es representativa de la población en su conjunto.
Divida su conjunto de datos de dos partes: la formación de datos de datos y de prueba.
Mantenga las variables analizadas al mínimo saludable para la tarea en cuestión.
Contar con la ayuda de expertos de conocimiento de dominio.

En el mercado de valores, por ejemplo, una técnica analítica clásica es back-testing - la ejecución de un modelo con los datos históricos para buscar la mejor estrategia comercial.

Supongamos que, después de ejecutar su nuevo modelo con los datos generados por un mercado alcista reciente, y ajustar el número de variables utilizadas en su análisis, el analista crea lo que ve como una estrategia de negociación óptima - una que produciría la mayor rentabilidad si que pudiera volver atrás y comerciar sólo durante el año que produjo los datos de prueba. Por desgracia, no puede.

Si se trata de aplicar ese modelo en un mercado bajista actual, busque a continuación: Él va a incurrir en pérdidas mediante la aplicación de un modelo demasiado optimizado por un período limitado de tiempo y un conjunto de condiciones que no se ajustan a la realidad actual. (Esto en cuanto a las ganancias hipotéticas.)

El modelo funcionó sólo para que desaparecieron mercado alcista porque era sobreentrenamiento, teniendo la pinta de un contexto que produjo los datos de ejemplo - con sus detalles, los valores extremos y defectos. Todas las circunstancias que rodean a ese conjunto de datos probablemente no se repetirán en el futuro, o en una verdadera representación de toda la población - pero todos ellos se presentaron en el modelo overfitted.

Si la salida de un modelo es demasiado precisa, tenga en cuenta que una pista para echar un vistazo más de cerca. Contar con la ayuda de expertos de conocimiento de dominio para ver si sus resultados son realmente demasiado bueno para ser verdad, y ejecutar ese modelo de más datos de prueba para futuras comparaciones.

Sobre el autor

Cómo crear un modelo de análisis predictivo con la regresión r

¿Quieres crear un modelo de análisis predictivo que se puede evaluar utilizando los resultados conocidos. Para ello, vamos a dividir nuestro conjunto de datos en dos conjuntos: uno para entrenar el modelo y otra para probar el modelo. Una 70/30…

Cómo ensemble métodos para aumentar la precisión de predicción analítica

Al igual que en el mundo real, así que con la multiplicidad de modelos analíticos predictivos: Donde hay unidad, hay fuerza. Varios modelos pueden combinarse de diferentes maneras para hacer predicciones. A continuación, puede aplicar el modelo…

¿Cómo evaluar y actualizar su modelo de análisis predictivo

Su objetivo, por supuesto, es la construcción de un modelo de análisis predictivo que puede resolver efectivamente los objetivos de negocio que fue construido para. Prepárese para pasar algún tiempo la evaluación de la precisión de las…

Cómo ir a vivir con el modelo de análisis predictivo

Después de desarrollar su modelo de análisis predictivo y con éxito; para ello, ya está listo para implementarlo en el entorno de producción. El objetivo final de un proyecto de análisis predictivo es poner el modelo se construye en el proceso…

Cómo nuevas predicciones analíticas con regresión r

Para hacer predicciones analíticas con nuevos datos, sólo tiene que utilizar la función con una lista de los siete valores de los atributos. El siguiente código hace ese trabajo:> NewPrediction lt; - predecir (modelo,
lista (cilindros =…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Cómo preparar los datos para un modelo de análisis predictivo

Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de pasos es la siguiente:Identificar las fuentes de…

Cómo ejecutar datos de entrenamiento en un modelo de aprendizaje supervisado svm

Antes de que pueda alimentar el clasificador Apoyo Vector Machine (SVM) con los datos que se cargan durante el análisis predictivo, debe dividir el conjunto de datos completo en un conjunto de entrenamiento y de prueba.Afortunadamente, scikit-learn…

Cómo anotar sus predicciones analíticas precisión

Al analizar la calidad de un modelo predictivo, usted querrá medir su precisión. El un pronóstico más preciso el modelo hace, más útil que es para la empresa, que es una indicación de su calidad. Todo esto es bueno - a excepción de cuando el…

Cómo probar el modelo de análisis predictivo

Para poner a prueba el modelo de análisis predictivo que construiste, es necesario dividir el conjunto de datos en dos conjuntos: formación y la prueba conjuntos de datos. Estos conjuntos de datos deben ser seleccionados al azar y deben ser una…

Cómo utilizar supuestos apropiadamente en el análisis predictivo

A pesar de todo lo que te han dicho sobre los supuestos que causan problemas, algunas suposiciones se mantienen en el centro de cualquier modelo de análisis predictivo. Esos supuestos aparecen en las variables seleccionadas y consideradas en el…

Cómo utilizar la analítica supervisadas para entrenar modelos predictivos

En análisis supervisadas, tanto de entrada como de salida preferidos son parte de los datos de entrenamiento. El modelo de análisis predictivo se presenta con los resultados correctos como parte de su proceso de aprendizaje. Tal aprendizaje…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Cómo utilizar la curva de ajuste en el análisis predictivo