¿Cómo crear una clasificación r análisis predictivo modelo

¿Quieres crear un modelo de análisis predictivo que pueda evaluar el uso de los resultados conocidos. Para hacer eso, dividir el semillas conjunto de datos en dos conjuntos: uno para entrenar el modelo y otra para probar el modelo. Una 70/30 división entre la formación y las pruebas de datos será suficiente. Las siguientes dos líneas de código calcular y almacenar los tamaños de cada conjunto de datos:

> TrainSize lt; - redonda (nRow (semillas) * 0.7)> testSize lt; - nRow (semillas) - trainSize

Para dar salida a los valores, escriba el nombre de la variable que ha utilizado para almacenar el valor y pulse Intro. Aquí está la salida:

> TrainSize [1] 147> testSize [1] 63

Este código determina los tamaños de las prácticas y pruebas de datos. En realidad no ha creado los conjuntos todavía. También, usted no sólo quiere las primeras 147 observaciones para establecer la formación y los últimos 63 observaciones sean la prueba. Eso crearía un mal modelo, porque el semillas conjunto de datos se ordena en la columna de la etiqueta.

Por lo tanto usted tiene que hacer tanto en el conjunto de entrenamiento y el conjunto representativo de pruebas de todo el conjunto de datos. Una forma de hacerlo es crear el conjunto de entrenamiento a partir de una selección al azar de todo el conjunto de datos.

Además, quiere hacer esta prueba reproducible para que puedas aprender de el mismo ejemplo. Usted puede hacer que al establecer el conjunto de datos para el generador aleatorio por lo que tiene el mismo conjunto de entrenamiento "al azar", así:

> Set.seed (123)> training_indices lt; - muestra (seq_len (nRow (semillas)),
size = trainSize)> trainset lt; - semillas [training_indices,]> testset lt; - semillas [-training_indices,]

El conjunto de entrenamiento que se obtiene de este código contiene 147 observaciones, junto con un resultado (seedType) De cada observación. Al crear el modelo, se le dirá el algoritmo de qué variable es el resultado. El algoritmo de clasificación utiliza esos resultados para entrenar el modelo en las relaciones entre las variables predictoras (cualquiera de los siete atributos) y la etiqueta (seedType).

El equipo de prueba contiene el resto de los datos, es decir, todos los datos no incluidos en el conjunto de entrenamiento. Observe que la configuración de prueba también incluye la etiqueta (seedType). Cuando se utiliza el predecir función (del modelo) con el equipo de prueba, se hace caso omiso de la etiqueta y sólo utiliza las variables de predicción, siempre y cuando los nombres de columna son los mismos que se encuentran en el conjunto de entrenamiento.

los fiesta paquete es uno de los varios paquetes en R que crean los árboles de decisión. (Otros paquetes de adopción de árboles comunes incluyen rpart, árbol, y randomForest.) El siguiente paso es usar el paquete para crear un modelo de árbol de decisión, usando seedType como la variable objetivo y todas las otras variables como variables de predicción. El primer paso en este proceso es instalar el paquete y cargarlo en nuestra sesión de R.

Escriba las siguientes líneas de código para instalar y cargar el fiesta paquete:

> Install.packages ("parte")> biblioteca (parte)

Ahora está listo para entrenar el modelo. Escriba la siguiente línea de código:

> Modelo lt; - ctree (. seedType ~, data = trainset)

Para hacer predicciones con nuevos datos, sólo tiene que utilizar la función on una lista de los siete valores de los atributos. El siguiente código hace lo siguiente:

> NewPrediction lt; - predecir (modelo, lista (área = 11,
perímetro = 13, compacidad = 0,855, longitud = 5,
width = 2,8, la asimetría = 6,5, longitud2 = 5),
intervalo = "predecir", level = 0,95)

Este es el código y salida del nuevo valor de predicción.

> NewPrediction [1] 3levels: 1 2 3

La predicción fue la semilla de tipo 3, que no es sorprendente, ya que los valores se eligieron deliberadamente que estaban cerca de la observación # 165.




» » » » ¿Cómo crear una clasificación r análisis predictivo modelo