Cómo probar el modelo de análisis predictivo

Para poner a prueba el modelo de análisis predictivo que construiste, es necesario dividir el conjunto de datos en dos conjuntos: formación y la prueba conjuntos de datos. Estos conjuntos de datos deben ser seleccionados al azar y deben ser una buena representación de la población real.

Conteúdo

Cómo emplear la validación cruzada
¿cómo equilibrar sesgo y la varianza
Cómo solucionar problemas de las ideas

Datos similares se deben utilizar tanto para la formación y los conjuntos de datos de prueba.
Normalmente la formación de datos es significativamente mayor que el conjunto de datos de prueba.
El uso de los datos de prueba le ayuda a evitar errores como sobreajuste.
El modelo de formación está dirigido contra los datos de prueba para ver lo bien que el modelo va a realizar.

Algunos científicos de datos prefieren tener un tercer conjunto de datos que tiene características similares a las de los dos primeros: una validación de datos. La idea es que si usted está utilizando activamente sus datos de prueba para perfeccionar el modelo, se debe utilizar un aparte (tercero) conjunto para comprobar la exactitud del modelo.

Tener un conjunto de datos de validación, que no se utiliza como parte del proceso de desarrollo de su modelo, ayuda a asegurar una valoración neutra de la precisión y la eficacia del modelo.

Si usted ha construido varios modelos utilizando varios algoritmos, la muestra de validación también puede ayudarle a evaluar qué modelo funciona mejor.

Asegúrese de que usted compruebe su trabajo desarrollar y probar el modelo. En particular, ser escéptico si el rendimiento o la exactitud del modelo parece demasiado bueno para ser verdad. Los errores pueden ocurrir cuando menos se lo espera. Calcular incorrectamente fechas para los datos de series de tiempo, por ejemplo, puede dar lugar a resultados erróneos.

Cómo emplear la validación cruzada

Validación cruzada es una técnica popular que puede utilizar para evaluar y validar el modelo. El mismo principio de la utilización de bases de datos separadas para las pruebas y formación se aplica aquí: La formación de datos se utiliza para construir el modelo- el modelo se ejecuta en el conjunto de pruebas para predecir datos que no ha visto antes, que es una forma de evaluar su exactitud .

En la validación cruzada, los datos históricos se divide en un número X de subconjuntos. Cada vez que se elige un subconjunto para ser utilizado como datos de prueba, el resto de los subconjuntos se utilizan como datos de entrenamiento. A continuación, en la siguiente ejecución, el ex equipo de prueba se convierte en uno de los conjuntos de entrenamiento y uno de los primeros conjuntos de formación se convierte en el equipo de prueba.

El proceso continúa hasta que cada subconjunto de ese número X de los conjuntos se ha utilizado como un conjunto de prueba.

Por ejemplo, imagine que tiene un conjunto de datos que se ha dividido en 5 series numeradas del 1 al 5. En la primera ejecución, utilice SET 1 como el conjunto de prueba y utilizar conjuntos de 2, 3, 4 y 5, como el conjunto de entrenamiento. Luego, en la segunda ejecución, utilice SET 2 como el conjunto de pruebas y juegos 1, 3, 4 y 5, como conjunto de entrenamiento.

Se continúa este proceso hasta que cada subconjunto de los 5 juegos se ha utilizado como una prueba de conjunto.

La validación cruzada le permite utilizar todos los puntos de datos en sus datos históricos, tanto para la formación y las pruebas. Esta técnica es más eficaz que simplemente dividir los datos históricos en dos conjuntos, utilizando el conjunto con la mayoría de los datos de entrenamiento, utilizando el otro conjunto de pruebas, y dejando las cosas así.

Cuando cruzada validar sus datos, usted está protegiendo a sí mismo contra escoger al azar de datos de prueba que es demasiado fácil de predecir - que le daría la falsa impresión de que su modelo es exacta. O, si quieres pasar a recoger datos de prueba que es muy difícil de predecir, es posible que falsamente concluir que el modelo no funciona como usted esperaba.

La validación cruzada se usa ampliamente no sólo para validar la precisión de los modelos sino también para comparar el rendimiento de múltiples modelos.

¿Cómo equilibrar sesgo y la varianza

El sesgo y la varianza son dos fuentes de errores que pueden tener lugar como usted está construyendo su modelo analítico.

Bias es el resultado de la construcción de un modelo que simplifica significativamente la presentación de las relaciones entre los puntos de datos en los datos históricos utilizados para construir el modelo.

Varianza es el resultado de la construcción de un modelo que es explícitamente específica a los datos utilizados para construir el modelo.

Lograr un equilibrio entre sesgo y varianza - mediante la reducción de la varianza y tolerar cierto sesgo - puede conducir a un mejor modelo predictivo. Esta compensación por lo general conduce a la construcción de modelos predictivos menos complejos.

Muchos algoritmos de minería de datos se han creado para tener en cuenta este compromiso entre sesgo y varianza.

Cómo solucionar problemas de las ideas

Cuando usted está probando su modelo y usted se encuentra va a ninguna parte, aquí están algunas ideas a tener en cuenta que pueden ayudarle a volver a la pista:

Siempre verifique su trabajo. Es posible que haya pasado por alto algo que supuso que era correcto, pero no lo es. Tales defectos pueden aparecer (por ejemplo) entre los valores de una variable predictiva en su conjunto de datos, o en el pre-procesamiento que se aplica a los datos.
Si el algoritmo elige no está dando ningún resultado, pruebe con otro algoritmo. Por ejemplo, intenta varios algoritmos de clasificación disponibles y en función de los datos y los objetivos de negocio de su modelo, una de esas puede funcionar mejor que los otros.
Pruebe a seleccionar diferentes variables o la creación de nuevas variables derivadas. Estar siempre en la búsqueda de variables que tienen poderes de predicción.
Consultar con frecuencia con los expertos en el dominio de negocio que pueden ayudar a dar sentido a los datos, seleccionar las variables, e interpretar los resultados del modelo.

Sobre el autor

¿Cómo crear una clasificación r análisis predictivo modelo

¿Quieres crear un modelo de análisis predictivo que pueda evaluar el uso de los resultados conocidos. Para hacer eso, dividir el semillas conjunto de datos en dos conjuntos: uno para entrenar el modelo y otra para probar el modelo. Una 70/30…

Cómo crear un modelo de análisis predictivo con la regresión r

¿Quieres crear un modelo de análisis predictivo que se puede evaluar utilizando los resultados conocidos. Para ello, vamos a dividir nuestro conjunto de datos en dos conjuntos: uno para entrenar el modelo y otra para probar el modelo. Una 70/30…

¿Cómo definir y probar prototipos de análisis predictivo

Una manera eficaz de indicar sus objetivos de negocio para el análisis predictivo claramente es como una lista con viñetas de las decisiones de los usuarios. A continuación, ejecute el prototipo para generar predicciones y puntuaciones para cada…

Cómo ensemble métodos para aumentar la precisión de predicción analítica

Al igual que en el mundo real, así que con la multiplicidad de modelos analíticos predictivos: Donde hay unidad, hay fuerza. Varios modelos pueden combinarse de diferentes maneras para hacer predicciones. A continuación, puede aplicar el modelo…

¿Cómo evaluar y actualizar su modelo de análisis predictivo

Su objetivo, por supuesto, es la construcción de un modelo de análisis predictivo que puede resolver efectivamente los objetivos de negocio que fue construido para. Prepárese para pasar algún tiempo la evaluación de la precisión de las…

Cómo nuevas predicciones analíticas con regresión r

Para hacer predicciones analíticas con nuevos datos, sólo tiene que utilizar la función con una lista de los siete valores de los atributos. El siguiente código hace ese trabajo:> NewPrediction lt; - predecir (modelo,
lista (cilindros =…

Cómo delinear las pruebas y datos de prueba para el análisis predictivo

Cuando los datos están listos y ya está a punto de comenzar la construcción de su modelo predictivo para el análisis, es útil para delinear su metodología de pruebas y elaborar un plan de pruebas. La prueba debe ser impulsada por los objetivos…

Cómo preparar los datos para un modelo de análisis predictivo

Cuando haya definido los objetivos del modelo de análisis predictivo, el siguiente paso es identificar y preparar los datos que va a utilizar para construir su modelo. La secuencia general de pasos es la siguiente:Identificar las fuentes de…

Cómo ejecutar datos de entrenamiento en un modelo de aprendizaje supervisado svm

Antes de que pueda alimentar el clasificador Apoyo Vector Machine (SVM) con los datos que se cargan durante el análisis predictivo, debe dividir el conjunto de datos completo en un conjunto de entrenamiento y de prueba.Afortunadamente, scikit-learn…

Cómo anotar sus predicciones analíticas precisión

Al analizar la calidad de un modelo predictivo, usted querrá medir su precisión. El un pronóstico más preciso el modelo hace, más útil que es para la empresa, que es una indicación de su calidad. Todo esto es bueno - a excepción de cuando el…

Cómo utilizar la curva de ajuste en el análisis predictivo

Ajuste de curvas es un proceso utilizado en el análisis predictivo en el que el objetivo es crear una curva que representa la función matemática que mejor se ajusta a los puntos de datos reales (originales) en una serie de datos.La curva puede o…

Cómo utilizar la analítica supervisadas para entrenar modelos predictivos

En análisis supervisadas, tanto de entrada como de salida preferidos son parte de los datos de entrenamiento. El modelo de análisis predictivo se presenta con los resultados correctos como parte de su proceso de aprendizaje. Tal aprendizaje…

maniqui-es.com » Computadoras y software » Big Data » La ciencia de datos » Cómo probar el modelo de análisis predictivo