Cómo cargar los datos en una clasificación r análisis predictivo modelo
El conjunto de datos se analizan para hacer una predicción sobre es el conjunto de datos Semillas, que se puede encontrar en la máquina de aprendizaje del repositorio UCI. Este conjunto de datos tiene 210 observaciones y 7 atributos, además de la etiqueta. La etiqueta es el resultado esperado y se usa para entrenar y evaluar la precisión del modelo de predicción.
El resultado que usted está tratando de predecir es el tipo de semilla es (atributo 8), teniendo en cuenta los valores de los siete atributos. Los tres valores posibles para el tipo de semilla se etiquetan 1, 2 y 3, y representan el Kama, Rosa, y las variedades canadienses de trigo.
Los atributos en el orden de las columnas que se proporcionan:
zona
perímetro
compacidad
longitud de kernel
anchura del kernel
coeficiente de asimetría
longitud de la ranura kernel
clase de trigo
Para obtener el conjunto de datos del repositorio UCI y cargarlo en la memoria, escriba el siguiente comando en la consola:
> Semillas lt; -
read.csv ("http://archive.ics.uci.edu/ml/machine~~number=plural -Learning-bases de datos / 00236 / seeds_dataset.txt", encabezado = FALSO, septiembre = "", as.is = true)
Usted ve que el conjunto de datos se carga en la memoria como la variable trama de datos semillas, al mirar en su panel de área de trabajo (la parte superior derecha). Haga clic en el semillas variable para ver los valores de los datos en el panel de origen (la parte superior izquierda). Esta es la forma en que los datos se ve en el panel de origen.
Puede encontrar más información acerca de los datos que acaba de cargar con la Resumen () función.
> Resumen (semillas) V1 V2 V3Min. : 10.59 Min. : 12.41 Min. : 0.80811st Qu:.. 12,27 primero Qu: 13,45 primero Qu:. 0.8569Median: 14,36 Mediana: 14,32 Mediana: 0.8734Mean: 14.85 Media: 14.56 Media: 0.87103rd Qu:. 17,30 tercero Qu:. 15,71 tercero Qu:. 0.8878 Max. : 21.18 Max. : 17.25 Max. : 0,9183 ...