Cómo preparar los datos en una clasificación r análisis predictivo modelo

Con el fin de realizar un análisis predictivo, usted tiene que obtener los datos en una forma que el algoritmo puede utilizar para construir un modelo. Para hacer eso, usted tiene que tomar un poco de tiempo para entender los datos y conocer su estructura. Escriba el funcionar para averiguar la estructura de los datos. Esto es lo que parece:

> Str (semillas) 'data.frame': 210 obs. de 8 variables: $ V1: num 14.9 14.3 13.8 15.3 16.1 ... $ V2: num 14.8 14.6 14.1 13.9 15 ... $ V3: num 0,881 0,905 0,895 0,871 0,903 ... $ V4: num 5.55 5.29 5.32 5.76 5.66. .. $ V5: num 3.31 3.33 3.34 3.38 3.56 ... $ V6: num 2,22 1,02 2,7 2,26 1,35 ... $ V7: num 5,22 4,96 4,83 4,8 5,17 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ...

Si buscas en la estructura, se puede decir que los datos necesitan una etapa de pre-procesamiento y un paso de conveniencia:

  • Cambiar el nombre de los nombres de columna. Esto no es estrictamente necesario, pero para los propósitos de este ejemplo, es más conveniente utilizar nombres de columna que pueda entender y recordar.

  • Cambie el atributo con valores categóricos a un factor. La etiqueta tiene tres categorías posibles.

Para cambiar el nombre de las columnas, escriba el siguiente código:

> COLNAMES (semillas) lt; - 
c ("zona", "perímetro", "compacta", "longitud", "ancho", "asimetría", "longitud2", "seedType")

A continuación, cambiar el atributo que tiene valores categóricos para un factor. El código siguiente cambia el tipo de datos a un factor:

> Semillas $ seedType lt; - factores (semillas $ seedType)

Este comando termina la preparación de los datos para el proceso de modelado. La siguiente es una vista de la estructura después de que el proceso de preparación de los datos:

> Str (malezas) 'data.frame': 210 obs. de 8 variables: $ área: num 14.9 14.3 13.8 15.3 16.1 ... $ perimetrales: num 14.8 14.6 14.1 13.9 15 ... $ compacidad: num 0,881 0,905 0,895 0,871 0,903 ... $ longitud: num 5.55 5.29 5.32 5.76 5.66. .. $ ancho: num 3.31 3.33 3.34 3.38 3.56 ... $ asimetría: num 2,22 1,02 2,7 2,26 1,35 ... $ longitud2: num 5,22 4,96 4,83 4,8 5,17 ... $ seedType: Factor w / 3 niveles de "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 ...



» » » » Cómo preparar los datos en una clasificación r análisis predictivo modelo