Cómo corregir errores de lectura de datos en r

Es probable que los errores más comunes en R se realizan durante la lectura de datos en archivos de texto utilizando read.table () o read.csv (). Muchos errores resultan en errores R de lanzamiento, pero a veces sólo se notan algo salió mal cuando nos fijamos en la estructura de los datos. En este último caso a menudo se encuentra que algunas o todas las variables se convierten en factores cuando en realidad no deberían ser.

Cuando R da errores o la estructura de los datos no es lo que usted piensa que debería ser, compruebe lo siguiente:

  • ¿Ha olvidado especificar el argumento header = TRUE? Si es así, R verá los nombres de columna como valores y, como resultado, convertir todas las variables a un factor como siempre lo hace con los datos de caracteres en un archivo de texto.

  • ¿Tuvo espacios en sus nombres de columna o datos? los read.table () función puede interpretar espacios en, por ejemplo, los nombres de columna o de datos de cadena como un separador. A continuación, obtiene errores que le dice 'línea x no tenía elementos Y'.

  • ¿Tuviste un separador decimal diferente? En algunos países, los decimales están separados por una coma. Tienes que decirle específicamente R que es el caso con el argumento diciembre = "" en el read.table () función.

  • ¿Ha olvidado especificar stringsAsFactors = FALSO? De forma predeterminada, R cambia los datos de caracteres a factores, por lo que siempre hay que añadir este argumento si desea que sus datos permanezcan las variables de carácter.

  • ¿Sabía usted tiene otra forma de especificar los valores que faltan? R lee 'N / A' en un archivo de texto como un valor perdido, pero el archivo puede utilizar un código diferente (por ejemplo, 'desaparecidos'). R verá que como texto y otra vez convertir esa variable a un factor. A resolver esto especificando el argumento na.strings en el read.table () función.

Si siempre comprueba la estructura de los datos inmediatamente después de leerlo, puede detectar errores mucho antes y evitar las horas de frustración. Su mejor apuesta es utilizar str () para obtener información sobre los tipos y cabeza () para ver si los valores son lo que esperabas.




» » » » Cómo corregir errores de lectura de datos en r