Cómo crear un modelo de análisis predictivo con la regresión r

¿Quieres crear un modelo de análisis predictivo que se puede evaluar utilizando los resultados conocidos. Para ello, vamos a dividir nuestro conjunto de datos en dos conjuntos: uno para entrenar el modelo y otra para probar el modelo. Una 70/30 división entre la formación y las pruebas de datos será suficiente. Las siguientes dos líneas de código calcular y almacenar los tamaños de cada conjunto:

> TrainSize lt; - redonda (nRow (autos) * 0.7)> testSize lt; - nRow (autos) - trainSize

Para dar salida a los valores, escriba el nombre de la variable que se utiliza para almacenar el valor y pulse Intro. Aquí está la salida:

> TrainSize [1] 279> testSize [1] 119

Este código determina el tamaño de los conjuntos de datos que tiene la intención de hacer que nuestros capacitación y prueba de datos. Todavía no has creado realidad esos conjuntos. Además, usted no quiere simplemente para llamar a los primeros 279 observaciones del conjunto de entrenamiento y llamar a los últimos 119 observaciones del equipo de prueba. Eso crearía un mal modelo, ya que el conjunto de datos aparece ordenó. Específicamente, la modelo del año la columna se ordena de menor a mayor.

Del examen de los datos, se puede ver que la mayoría de la, de ocho cilindros, de mayor cilindrada más pesada, automóviles más caballos de fuerza residen en la parte superior del conjunto de datos. A partir de esta observación, sin tener que ejecutar cualquier algoritmo en los datos, se puede ya decir que (en general, para este conjunto de datos) los coches más viejos en comparación con los autos más nuevos de la siguiente manera:

  • Son más pesados

  • Tienen ocho cilindros

  • Tener mayor cilindrada

  • Tienen mayor potencia

Bueno, obviamente, mucha gente sabe algo acerca de los automóviles, por lo que una conjetura en cuanto a lo que las correlaciones son no será demasiado rebuscado después de ver los datos. Alguien con mucho conocimiento del automóvil puede ya haber sabido esto sin siquiera mirar los datos.

Esto es sólo un ejemplo sencillo de un dominio (coches) que muchas personas pueden relacionarse. Si se trataba de datos sobre el cáncer, sin embargo, la mayoría de la gente no entiende de inmediato el significado de cada atributo.

Aquí es donde un experto de dominio y un modelador de datos son vitales para el proceso de modelado. Expertos de dominio pueden tener el mejor conocimiento de los cuales atributos pueden ser los más (o menos) importante - y cómo correlacionar los atributos entre sí.

Ellos pueden sugerir al modelador de datos qué variables para experimentar con. Pueden dar pesos más grandes a los atributos más importantes y / o pesos menores a los atributos de menor importancia (o eliminarlos por completo).

Así que hay que hacer una formación de datos y un conjunto de datos de prueba que son verdaderamente representativas de todo el conjunto. Una forma de hacerlo es crear el conjunto de entrenamiento a partir de una selección al azar de todo el conjunto de datos. Además, quiere hacer esta prueba reproducible para que puedas aprender de el mismo ejemplo.

De este modo establecer la semilla para el generador aleatorio así que tendremos la misma " al azar " conjunto de entrenamiento. El siguiente código hace esa tarea:

> Set.seed (123)> training_indices lt; - muestra (seq_len (nRow (autos)),
size = trainSize)> trainset lt; - Automóviles [training_indices,]> testset lt; - autos [-training_indices,]

El conjunto de entrenamiento contiene 279 observaciones, junto con el resultado (mpg) De cada observación. El algoritmo de regresión utiliza el resultado para entrenar el modelo en las relaciones entre las variables predictoras (cualquiera de los siete atributos) y la variable de respuesta (mpg).

El equipo de prueba contiene el resto de los datos (es decir, la parte no incluida en el conjunto de entrenamiento). Usted debe notar que la prueba de conjunto también incluye la respuesta (mpg) Variable.

Cuando se utiliza el predecir función (del modelo) con el equipo de prueba, no tiene en cuenta la variable de respuesta y sólo utiliza las variables de predicción, siempre y cuando los nombres de columna son los mismos que en el conjunto de entrenamiento.

Para crear un modelo de regresión lineal que utiliza el mpg atribuir como variable respuesta y todas las otras variables como variables de predicción, escriba la siguiente línea de código:

> Modelo lt; - lm (. fórmula = trainset $ mpg ~, data = trainset)



» » » » Cómo crear un modelo de análisis predictivo con la regresión r