Cómo probar el modelo de análisis predictivo

Para poner a prueba el modelo de análisis predictivo que construiste, es necesario dividir el conjunto de datos en dos conjuntos: formación y la prueba conjuntos de datos. Estos conjuntos de datos deben ser seleccionados al azar y deben ser una buena representación de la población real.

  • Datos similares se deben utilizar tanto para la formación y los conjuntos de datos de prueba.

  • Normalmente la formación de datos es significativamente mayor que el conjunto de datos de prueba.

  • El uso de los datos de prueba le ayuda a evitar errores como sobreajuste.

  • El modelo de formación está dirigido contra los datos de prueba para ver lo bien que el modelo va a realizar.

Algunos científicos de datos prefieren tener un tercer conjunto de datos que tiene características similares a las de los dos primeros: una validación de datos. La idea es que si usted está utilizando activamente sus datos de prueba para perfeccionar el modelo, se debe utilizar un aparte (tercero) conjunto para comprobar la exactitud del modelo.

Tener un conjunto de datos de validación, que no se utiliza como parte del proceso de desarrollo de su modelo, ayuda a asegurar una valoración neutra de la precisión y la eficacia del modelo.

Si usted ha construido varios modelos utilizando varios algoritmos, la muestra de validación también puede ayudarle a evaluar qué modelo funciona mejor.

Asegúrese de que usted compruebe su trabajo desarrollar y probar el modelo. En particular, ser escéptico si el rendimiento o la exactitud del modelo parece demasiado bueno para ser verdad. Los errores pueden ocurrir cuando menos se lo espera. Calcular incorrectamente fechas para los datos de series de tiempo, por ejemplo, puede dar lugar a resultados erróneos.

Cómo emplear la validación cruzada

Validación cruzada es una técnica popular que puede utilizar para evaluar y validar el modelo. El mismo principio de la utilización de bases de datos separadas para las pruebas y formación se aplica aquí: La formación de datos se utiliza para construir el modelo- el modelo se ejecuta en el conjunto de pruebas para predecir datos que no ha visto antes, que es una forma de evaluar su exactitud .

En la validación cruzada, los datos históricos se divide en un número X de subconjuntos. Cada vez que se elige un subconjunto para ser utilizado como datos de prueba, el resto de los subconjuntos se utilizan como datos de entrenamiento. A continuación, en la siguiente ejecución, el ex equipo de prueba se convierte en uno de los conjuntos de entrenamiento y uno de los primeros conjuntos de formación se convierte en el equipo de prueba.

El proceso continúa hasta que cada subconjunto de ese número X de los conjuntos se ha utilizado como un conjunto de prueba.

Por ejemplo, imagine que tiene un conjunto de datos que se ha dividido en 5 series numeradas del 1 al 5. En la primera ejecución, utilice SET 1 como el conjunto de prueba y utilizar conjuntos de 2, 3, 4 y 5, como el conjunto de entrenamiento. Luego, en la segunda ejecución, utilice SET 2 como el conjunto de pruebas y juegos 1, 3, 4 y 5, como conjunto de entrenamiento.

Se continúa este proceso hasta que cada subconjunto de los 5 juegos se ha utilizado como una prueba de conjunto.

La validación cruzada le permite utilizar todos los puntos de datos en sus datos históricos, tanto para la formación y las pruebas. Esta técnica es más eficaz que simplemente dividir los datos históricos en dos conjuntos, utilizando el conjunto con la mayoría de los datos de entrenamiento, utilizando el otro conjunto de pruebas, y dejando las cosas así.

Cuando cruzada validar sus datos, usted está protegiendo a sí mismo contra escoger al azar de datos de prueba que es demasiado fácil de predecir - que le daría la falsa impresión de que su modelo es exacta. O, si quieres pasar a recoger datos de prueba que es muy difícil de predecir, es posible que falsamente concluir que el modelo no funciona como usted esperaba.

La validación cruzada se usa ampliamente no sólo para validar la precisión de los modelos sino también para comparar el rendimiento de múltiples modelos.

¿Cómo equilibrar sesgo y la varianza

El sesgo y la varianza son dos fuentes de errores que pueden tener lugar como usted está construyendo su modelo analítico.

Bias es el resultado de la construcción de un modelo que simplifica significativamente la presentación de las relaciones entre los puntos de datos en los datos históricos utilizados para construir el modelo.

Varianza es el resultado de la construcción de un modelo que es explícitamente específica a los datos utilizados para construir el modelo.

Lograr un equilibrio entre sesgo y varianza - mediante la reducción de la varianza y tolerar cierto sesgo - puede conducir a un mejor modelo predictivo. Esta compensación por lo general conduce a la construcción de modelos predictivos menos complejos.

Muchos algoritmos de minería de datos se han creado para tener en cuenta este compromiso entre sesgo y varianza.

Cómo solucionar problemas de las ideas

Cuando usted está probando su modelo y usted se encuentra va a ninguna parte, aquí están algunas ideas a tener en cuenta que pueden ayudarle a volver a la pista:

  • Siempre verifique su trabajo. Es posible que haya pasado por alto algo que supuso que era correcto, pero no lo es. Tales defectos pueden aparecer (por ejemplo) entre los valores de una variable predictiva en su conjunto de datos, o en el pre-procesamiento que se aplica a los datos.

  • Si el algoritmo elige no está dando ningún resultado, pruebe con otro algoritmo. Por ejemplo, intenta varios algoritmos de clasificación disponibles y en función de los datos y los objetivos de negocio de su modelo, una de esas puede funcionar mejor que los otros.

  • Pruebe a seleccionar diferentes variables o la creación de nuevas variables derivadas. Estar siempre en la búsqueda de variables que tienen poderes de predicción.

  • Consultar con frecuencia con los expertos en el dominio de negocio que pueden ayudar a dar sentido a los datos, seleccionar las variables, e interpretar los resultados del modelo.




» » » » Cómo probar el modelo de análisis predictivo