Cómo resumir un conjunto de datos en r
Si necesita una descripción rápida de su conjunto de datos, se puede, por supuesto, siempre use el comando R str ()
y mirar la estructura. Pero esto te dice algo sólo acerca de las clases de sus variables y el número de observaciones. Además, la función de cabeza () le da, a lo sumo, una idea de la forma en que los datos se almacenan en el conjunto de datos.Cómo obtener la salida
Para tener una mejor idea de la distribución de las variables en el conjunto de datos, puede utilizar el Resumen () funcionar como esto:
> Resumen (coches) mpg cil am gearMin. : 10.40 Min. : 4.000 autos: 13 3: 151a Qu:. 15,43 primero Qu:. 4.000 Manual: 19 4: 12Median: 19,20 Mediana: 6.0005: 5Mean: 20.09 Media: 6.1883rd Qu:. 22,80 tercero Qu:. 8.000Max. : 33.90 Max. : 8.000
los Resumen () función funciona mejor si usted sólo tiene que utilizar R interactiva en la línea de comandos para la digitalización de su conjunto de datos de forma rápida. Usted no debe tratar de usarla dentro de una función personalizada que escribiste tú mismo.
La salida de la Resumen () página muestra para cada variable de un conjunto de estadísticas descriptivas, dependiendo del tipo de la variable:
Las variables numéricas: Resumen () le otorga el rango, cuartiles, la mediana y la media.
Variables de factor: Resumen () le da una tabla con las frecuencias.
Numéricos y de factores variables: Resumen () le da el número de valores faltantes, si los hay.
Variables Carácter: Resumen () no le da ninguna información en absoluto, aparte de la duración y de la clase (que es 'personaje').
Cómo solucionar un problema
¿Has visto los valores extraños para la variable cil? Un rápido vistazo al resumen se puede decir que hay algo raro pasa, como, por ejemplo, el mínimo y el primer cuartil tienen exactamente el mismo valor. De hecho, la variable cil tiene sólo tres valores y sería mejor como un factor. Por lo tanto, vamos a poner esa variable fuera de su miseria:
> Coches $ cil lt; - as.factor (automóviles $ cyl)