Cómo utilizar la curva de ajuste en el análisis predictivo

Ajuste de curvas

es un proceso utilizado en el análisis predictivo en el que el objetivo es crear una curva que representa la función matemática que mejor se ajusta a los puntos de datos reales (originales) en una serie de datos.

La curva puede o bien pasar a través de cada punto de datos o permanecer dentro de la mayor parte de los datos, haciendo caso omiso de algunos puntos de datos con la esperanza de sacar las tendencias de los datos. En cualquier caso, una función matemática única se asigna a todo el cuerpo de datos, con el objetivo de ajustar todos los puntos de datos en una curva que delinea las tendencias y ayudas de predicción.

imagen0.jpg

El ajuste de curvas se puede lograr en una de tres maneras:

  • Al encontrar un ajuste exacto para cada punto de datos (un proceso llamado interpolación)

  • Si se aloja dentro de la mayor parte de los datos sin tener en cuenta algunos de los puntos de datos con la esperanza de tendencias de dibujo de los datos

  • Mediante el empleo de suavizado de datos para llegar a una función que representa el gráfico suavizado

El ajuste de curvas se puede utilizar para rellenar posibles puntos de datos para reemplazar los valores perdidos o ayudar a los analistas visualizar los datos.

Cuando se trabaja para generar un modelo de análisis predictivo, evite la adaptación de su modelo para adaptarse a su muestra de datos perfectamente. Este modelo se producirá un error - miserablemente - predecir conjuntos de datos aún variables similares fuera de la muestra de datos. Ajuste de un modelo muy de cerca a una muestra de datos en particular es un error clásico llamado sobreajuste.

Los males de sobreajuste

En esencia, sobreajuste un modelo es lo que pasa cuando overtrain el modelo para representar solamente los datos de la muestra - que no es una buena representación de los datos en su conjunto. Sin un conjunto de datos más realistas para seguir adelante, el modelo se puede entonces plagado de errores y riesgos cuando se va operativo - y las consecuencias para su negocio puede ser grave.

Sobreajuste un modelo es una trampa común porque la gente quiere crear modelos que trabajan - y así se ven tentados a mantener las variables de ajustes y parámetros hasta que el modelo funciona perfectamente - en muy pocos datos. Errar es humano. Afortunadamente, también es humano para crear soluciones realistas.

Para evitar sobreajuste su modelo para el conjunto de datos de la muestra, asegúrese de tener un cuerpo de datos de prueba disponibles que es separado de sus datos de ejemplo. Entonces se puede medir el rendimiento de su modelo de forma independiente antes de hacer el modelo operativo.

Así, una salvaguardia general contra sobreajuste es dividir los datos en dos partes: la formación de datos de datos y de prueba. El rendimiento del modelo frente a los datos de la prueba le dirá mucho acerca de si el modelo está listo para el mundo real.

Otra buena práctica es asegurarse de que los datos representan la población más grande del dominio que está modelando para. Todo un modelo de sobreentrenamiento sabe es las características específicas de la muestra de datos que está entrenado. Si se entrena el modelo sólo en (digamos) las ventas de raquetas de nieve en invierno, no se sorprenda si fracasa miserablemente cuando se ejecuta de nuevo en los datos de cualquier otra temporada.

¿Cómo evitar sobreajuste

Vale la pena repetir: Demasiado ajustes del modelo es apto para dar lugar a sobreajuste. Una de estas pellizco está incluyendo demasiadas variables en el análisis. Mantenga esas variables al mínimo. Sólo incluir variables que se ven como absolutamente necesario - los que creen que va a hacer una diferencia significativa en el resultado.

Esta visión sólo proviene de un profundo conocimiento del dominio de negocio que se encuentre. Ahí es donde la experiencia de los expertos de dominio puede ayudarle a no caer en la trampa de sobreajuste.

He aquí una lista de las mejores prácticas para ayudar a evitar el sobreajuste su modelo:

  • Elija un conjunto de datos para trabajar con esto es representativa de la población en su conjunto.

  • Divida su conjunto de datos de dos partes: la formación de datos de datos y de prueba.

  • Mantenga las variables analizadas al mínimo saludable para la tarea en cuestión.

  • Contar con la ayuda de expertos de conocimiento de dominio.

En el mercado de valores, por ejemplo, una técnica analítica clásica es back-testing - la ejecución de un modelo con los datos históricos para buscar la mejor estrategia comercial.

Supongamos que, después de ejecutar su nuevo modelo con los datos generados por un mercado alcista reciente, y ajustar el número de variables utilizadas en su análisis, el analista crea lo que ve como una estrategia de negociación óptima - una que produciría la mayor rentabilidad si que pudiera volver atrás y comerciar sólo durante el año que produjo los datos de prueba. Por desgracia, no puede.

Si se trata de aplicar ese modelo en un mercado bajista actual, busque a continuación: Él va a incurrir en pérdidas mediante la aplicación de un modelo demasiado optimizado por un período limitado de tiempo y un conjunto de condiciones que no se ajustan a la realidad actual. (Esto en cuanto a las ganancias hipotéticas.)

El modelo funcionó sólo para que desaparecieron mercado alcista porque era sobreentrenamiento, teniendo la pinta de un contexto que produjo los datos de ejemplo - con sus detalles, los valores extremos y defectos. Todas las circunstancias que rodean a ese conjunto de datos probablemente no se repetirán en el futuro, o en una verdadera representación de toda la población - pero todos ellos se presentaron en el modelo overfitted.

Si la salida de un modelo es demasiado precisa, tenga en cuenta que una pista para echar un vistazo más de cerca. Contar con la ayuda de expertos de conocimiento de dominio para ver si sus resultados son realmente demasiado bueno para ser verdad, y ejecutar ese modelo de más datos de prueba para futuras comparaciones.




» » » » Cómo utilizar la curva de ajuste en el análisis predictivo