¿Cómo explicar los resultados de los análisis predictivos de regresión r

Una vez que se crea un modelo de regresión R para el análisis predictivo, que desea ser capaz de explicar los resultados del análisis. Para ver algo de información útil sobre el modelo, el tipo en el siguiente código:

> Resumen (modelo)

La salida proporciona información que se puede explorar si desea modificar su modelo de más. Por ahora, vamos a dejar el modelo tal como es. Aquí están las dos últimas líneas de la salida:

Múltiple R-cuadrado: 0.8741, ajustado R-cuadrado: 0.8633F-estadística: 80.82 los días 22 y 256 DF, p-valor: lt; 2.2e-16

Un par de puntos de datos se destacan aquí:

  • los Multiple cuadrado R- valor que indica qué tan bien la línea de regresión se ajusta a los datos (bondad de ajuste). Un valor de 1 significa que es un ajuste perfecto. Así que un R-cuadrado valor de 0.874 es buena, se dice que el 87,4 por ciento de la variabilidad en mpg se explica por el modelo.

  • los p-valor te dice lo importante que las variables predictoras afectan a la variable de respuesta. LA p-valor de menos (por lo general) 0.05 significa que puede rechazar la hipótesis nula de que las variables predictoras colectivamente tienen ningún efecto sobre la variable respuesta (mpg). los p-valor de 2.2e-16 (es decir, 2,2 con 16 ceros en frente de ella) es mucho menor que 0,05, por lo que los predictores tener un efecto sobre la respuesta.

Con el modelo creado, puedes hacer predicciones en contra de ella con los datos de prueba ha particionado desde el conjunto de datos completo. Para utilizar este modelo para predecir el para cada fila del conjunto de la prueba, se emite el siguiente comando:

> Predicciones lt; - predecir (modelo, testset,
intervalo = "predecir", level = 0,95)

Este es el código y la salida de los primeros seis predicciones:

> Cabeza (predicciones) ajuste LWR upr2 16.48993 10.530223 22.449644 12.204615 24.126255 18.39992 18.16543 12.402524 24.397326 18.162577 6.023341 12.09295 11.37966 5.186428 17.572898 5.527497 17.79985 11.66368

La salida es una matriz que muestra los valores predichos de la ajuste columna y el intervalo de predicción en el LWR y UPR columnas - con un nivel de confianza del 95 por ciento. Cuanto mayor es el nivel de confianza, mayor será el rango, y viceversa.

El valor predicho está en el medio de la GAMA por lo que cambiar el nivel de confianza no cambia el valor predicho. La primera columna es el número de fila del conjunto de datos completo.

Para ver el lado valores reales y predichos por lado para que pueda comparar fácilmente, puede escribir en las siguientes líneas de código:

> Comparación lt; - cbind (testset $ mpg, predicciones [1])> COLNAMES (comparación) lt; - c ("real", "predice")

La primera línea crea una matriz de dos columnas con los valores reales y predichos. La segunda línea cambia los nombres de columna a real y predijo. Escriba la primera línea de código para obtener la salida de los primeros seis líneas de comparación, como sigue:

> Cabeza (comparación) predicted2 real 15 16.489934 18.165435 16 17 18.399926 12.092957 14 15 14 11.379668 11.66368

También queremos ver un resumen de las dos columnas para comparar sus medios. Este es el código y la salida del resumen:

> Resumen (comparación) actualpredictedMin. : 10.00 Min. : 8.8491st Qu:. 16,00 primero Qu:. 17.070Median: 21,50 Mediana: 22.912Mean: 22.79 Media: 23.0483rd Qu:. 28,00 tercero Qu:. 29.519Max. : 44.30 Max. : 37.643

A continuación, utiliza el error absoluto medio por ciento (MAPE), Para medir la precisión de nuestro modelo de regresión. La fórmula para el error absoluto medio por ciento es

(# 931- (| Y-Y '| / | Y |) / N) * 100

donde Y es la puntuación real, Y 'es el resultado previsto, y N es el número de puntuaciones pronosticadas. Después de conectar los valores en la fórmula, se obtiene un error de sólo 10.94 por ciento. Aquí está el código y la salida de la consola de R:

> MAPE lt; - (suma (abs (comparación [1] -Comparación [2]) / abs (comparación [, 1])) / nRow (comparación)) * 100> MAPE [1] 10.93689

El siguiente código permite ver los resultados y errores en una vista de tabla:

> MapeTable lt; - cbind (comparación, abs (comparación [1] - comparación [2]) / comparación [, 1] * 100)> COLNAMES (mapeTable) [3] lt; - "error absoluto ciento"> cabeza (mapeTable) real predicho ciento error2 absoluta 15 16.48993 18.16543 13.5339525 9.9328894 16 17 18.39992 12.09295 8.2348406 15 19.3803097 18.7167088 14 11.37966 11.66368 14 16.688031

Aquí está el código que le permite ver el porcentaje de error de nuevo:

> Sum (mapeTable [3]) / nRow (comparación)
[1] 10.93689



» » » » ¿Cómo explicar los resultados de los análisis predictivos de regresión r