Cómo crear subgrupos de datos en r

los cortar()

función en R crea cubos de igual tamaño (por defecto) en sus datos y luego clasifica cada elemento en su contenedor correspondiente.

Si esto suena como un bocado, no se preocupe. Unos pocos ejemplos deberían hacer esto vienen a la vida.

Modo de empleo de corte para crear un número fijo de subgrupos

Para ilustrar el uso de cortar(), tener una mirada en el conjunto de datos integrada state.x77, una matriz con varias columnas y una fila para cada estado de los Estados Unidos:

> Cabeza (state.x77) Ingresos Población Analfabetismo Vida Exp Asesinato HS Grad Escarcha AreaAlabama 3615 36.242,1 69,05 15,1 41,3 20 50708Alaska 365 63,151.5 69.31 11.3 66.7 152 566432Arizona 2212 45.301,8 70,55 7,8 58,1 15 113417Arkansas 2110 33.781,9 70,66 10,1 39,9 65 51945California 21.198 51.141,1 71,71 10,3 62,6 20 156361Colorado 2,541 48.840,7 72,06 6,8 63,9 166 103 766

Usted quiere trabajar con la columna llamada escarcha. Para extraer esta columna, pruebe lo siguiente:

> Heladas lt; - state.x77 ["Frost"]> cabeza (heladas, 5) Alabama Alaska Arizona Arkansas California20152 15 65 20

Ahora tiene un nuevo objeto, escarcha, un vector numérico llamado. Ahora usa cortar() para crear tres contenedores en sus datos:

> Corte (heladas, 3, include.lowest = TRUE) [1] [-0.188,62.6] (125188] [-0.188,62.6] (62.6,125] [5] [-0.188,62.6] (125188] (125.188 ] (62.6,125] .... [45] (125188] (62.6,125] [-0.188,62.6] (62.6,125] [49] (125,188] (125,188] Niveles: [-0.188,62.6] ( 62.6,125] (125188]

El resultado es un factor con tres niveles. Los nombres de los niveles parecen un poco complicado, pero te dicen en notación matemática de conjuntos lo que los límites de sus contenedores son. Por ejemplo, el primer bin contiene aquellos estados que han escarcha entre -0.188 y 62,8 días.

En realidad, por supuesto, ninguno de los estados tendrá las heladas en los días negativos - R es ser matemáticamente conservadora y añade un poco de relleno.

Tenga en cuenta el argumento include.lowest = TRUE a cortar(). El valor por defecto de este argumento es include.lowest = FALSO, que a veces puede causar R ignorar el valor más bajo de sus datos.

Cómo agregar etiquetas para cortar

Los nombres de nivel no son muy fácil de usar, por lo especifican algunos nombres con los mejores etiquetas argumento:

> Corte (heladas, 3, include.lowest = TRUE, etiquetas = c ("Low", "Med", "High")) [1] Alto Alto Bajo Alto Bajo Medio Bajo Medio Bajo Bajo Bajo .... [45 ] Alta Med Baja Media Alta HighLevels: Alta Baja Med

Ahora usted tiene un factor que clasifica los estados en baja, media y alta, en función del número de días de heladas que reciben.

Cómo utilizar la tabla para contar el número de observaciones

Una pieza interesante de análisis consiste en contar el número de estados están en cada soporte. Usted puede hacer esto con la mesa() función, que simplemente cuenta el número de observaciones en cada nivel de su factor.

> X lt; - corte (heladas, 3, include.lowest = TRUE, etiquetas = c ("Low", "Med", "High"))> mesa (x) XLow Med High11 19 20



» » » » Cómo crear subgrupos de datos en r