Cómo preparar los datos de la r de regresión para el análisis predictivo

Usted tiene que obtener los datos en una forma que el algoritmo puede utilizar para construir un modelo de análisis predictivo. Para ello, usted tiene que tomar un poco de tiempo para entender los datos y conocer la estructura de los datos. Llene en la función para averiguar la estructura de los datos. El comando y su salida se ven así:

> Str (autos) 'data.frame': 398 obs. de 9 variables: $ V1: num 18 15 18 16 17 15 14 14 14 15 ... $ V2: int 8 8 8 8 8 8 8 8 8 8 ... $ V3: num 307 350 318 304 302 429 454 440 455 390 ... $ V4: chr "130.0" "165.0" "150.0" "150.0" ... $ V5: num 3504 3693 3436 3433 3449 ... $ V6: num 12 11.5 11 12 10.5 10 9 8,5 10 8,5 ... $ V7: int 70 70 70 70 70 70 70 70 70 70 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ... $ V9: Factor w / 305 niveles "berlina embajador amc" ..:
50 37 232 15 162 142 55 224 242 2 ...

Si buscas en la estructura, se puede decir que hay un poco de preparación de datos y la limpieza que hacer. He aquí una lista de las tareas necesarias:

  • Cambiar el nombre de los nombres de columna.

    Esto no es estrictamente necesario, pero para los propósitos de este ejemplo, es mejor utilizar nombres de columna que pueda entender y recordar.

  • Cambiar el tipo de datos de V4 (caballo de fuerza) A una numérico tipo de datos.

    En este ejemplo, caballo de fuerza es un valor numérico continuo y no un personaje tipo de datos.

  • Manejar los valores perdidos.

    Aquí caballo de fuerza tiene seis valores perdidos.

  • Cambie los atributos que tienen valores discretos a factores.

    Aquí cilindros, año del modelo, y origen tener valores discretos.

  • Deseche el V9 (nombre de coche) Atributo.

    Aquí nombre de coche no añade valor al modelo que se está creando. Si el origen No se les dio atributo, que podría haber derivado el origen de la nombre de coche atribuir.

Para cambiar el nombre del tipo columnas en el siguiente código:

> COLNAMES (autos) lt; - 
c ("mpg", "cilindros", "desplazamiento", "caballos de fuerza", "peso", "aceleración", "modelo del año", "origen",
"carName")

A continuación, cambiar el tipo de datos caballo de fuerza a numérico con el siguiente código:

> Autos $ caballos de fuerza lt; - as.numeric (autos $ caballos de fuerza)

El programa se quejará porque no todos los valores en caballos de fuerza eran representaciones de cadena de números. Hubo algunos valores perdidos que fueron representadas como el "? " personaje. Eso está bien por ahora porque R convierte cada instancia de ? dentro N / A.

Una forma común para manejar los valores que faltan de las variables continuas es reemplazar cada valor que falta con la media de toda la columna. La siguiente línea de código hace que:

> Autos $ caballos de fuerza [is.na (autos $ caballos de fuerza)] lt; - media (autos $ caballos de fuerza, na.rm = TRUE)

Es importante tener -na.rm TRUE en el significar función. Cuenta la función no utilizar columnas con valores nulos en su cálculo. Sin ella, la función devolverá.

A continuación, cambiar los atributos con valores discretos a factores. Tres atributos han sido identificados como discreta. Las siguientes tres líneas de código cambian los atributos.

> Autos $ origen lt; - factores (autos $ origen)> autos $ modelo del año cilindros de factores (autos $ Modelo, año)> autos $ -; lt lt; - factores (autos cilindros $)

Por último, quite el atributo de la trama de datos con esta línea de código:

> Autos $ carName lt; - NULL

En este punto, usted ha terminado de preparar los datos para el proceso de modelado. La siguiente es una vista de la estructura después de que el proceso de preparación de los datos:

> Str (autos) 'data.frame': 398 obs. de 8 variables: $ mpg: num 15 18 16 18 17 15 14 14 14 15 ... $ cilindros: Factor w / 5 niveles de "3", "4", "5", "6", ..:
5 5 5 5 5 5 5 5 5 5 ... $ desplazamiento: num 350 318 304 307 302 429 454 440 455 390 ... $ caballos de fuerza: num 165 150 150 130 140 198 220 215 225 190 ... $ peso: num 3504 3693 3436 3433 3449. . . $ Aceleración: num 12 11.5 11 12 10.5 10 9 8,5 10 8,5 ... $ Modelo, año: Factor w / 13 niveles de "70", "71", "72", ..:
1 1 1 1 1 1 1 1 1 1 ... $ origen: Factor w / 3 niveles de "1", "2", "3":
1 1 1 1 1 1 1 1 1 1 ...



» » » » Cómo preparar los datos de la r de regresión para el análisis predictivo