Modo de empleo Aplicar para crear resúmenes tabulares en r

Tu usas tapply ()

para crear resúmenes tabulares de datos en R. Con tapply (), usted puede crear fácilmente resúmenes de los subgrupos en los datos. Esta función toma tres argumentos:

  • X: Un vector

  • ÍNDICE: Un factor o lista de factores

  • DIVERTIDO: Una función

Por ejemplo, calcular la longitud sépalo media en el conjunto de datos iris:

> Tapply (iris $ Sepal.Length, iris $ Especies, media) setosa versicolor virginica5.006 5.936 6.588

Con este breve línea de código, que hace algunas cosas de gran alcance. Usted le dice a R para tomar la Sepal.Length columna, dividirlo según Especies, y luego calcular la media para cada grupo.

Este es un lenguaje importante para escribir código en R, y por lo general se conoce con el nombre de Split, en Aplicar y, Combine (SAC). En este caso, dividir un vector en grupos, aplicar una función a cada grupo, y luego combinar los resultados en un vector.

Por supuesto, utilizando el con() función, usted puede escribir su línea de código en una forma un poco más legible:

> Con (iris, Tapply (Sepal.Length, Especies, significa)) setosa versicolor virginica5.006 5.936 6.588

Usando tapply (), también puede crear tablas más complejas para resumir sus datos. Esto se hace mediante el uso de una lista como su ÍNDICE argumento.

Cómo utilizar tapply () para crear tablas de dimensiones superiores

Por ejemplo, tratar de resumir la trama de datos mtcars, una trama de datos integrada con los datos sobre motores para automóviles y rendimiento. Al igual que con cualquier objeto, puede utilizar str () para inspeccionar su estructura:

> Str (mtcars)

La variable soy es un vector numérico que indica si el motor tiene un sistema automático (0) O manual (1) Caja de cambios. Porque esto no es muy descriptivo, empezar por crear un nuevo objeto, carros, que es una copia de mtcars, y cambiar la columna soy ser un factor:

> Autos lt; - dentro de los (mtcars, + am lt; - los factores (de la mañana, los niveles = 0: 1, etiquetas = c ("Automatic", "Manual")) +)

Ahora usa tapply () para encontrar las millas promedio por galón (mpg) Para cada tipo de caja de cambios:

> Con (coches, tapply (mpg, AM, significan)) automático Manual17.14737 24.39231

Sí, tiene usted razón. Esto es todavía sólo una tabla unidimensional. Ahora, trata de hacer una tabla de dos dimensiones con el tipo de caja de cambios (am) y el número de engranajes (engranaje):

> Con (automóviles, tapply (mpg, lista (engranajes, am), media)) automático Manual3 16.10667 21.05000 NA4 26.2755NA 21.380

Tu usas tapply () para crear resúmenes tabulares de datos. Esto es un poco similar a la mesa() función. Sin embargo, mesa() Sólo puede crear tablas de contingencia (es decir, tablas de cuentas), mientras que con tapply () se puede especificar cualquier función que la función de agregación. En otras palabras, con tapply (), se puede calcular el recuento, medios, o cualquier otro valor.

Si desea resumir las estadísticas en un solo vector, tapply () es muy útil y rápido de usar.

Cómo utilizar agregada ()

Otra función R que hace algo muy similar es agregada ():

> Con (automóviles, agregada (mpg, lista (engranaje = engranaje, am = am), media)) gearamx1 3 automática 16.106672 21.050003 4 Automática 4 Manual 5 Manual 26.275004 21.38000

A continuación, se toma agregada () a nuevas alturas con la interfaz de fórmula.




» » » » Modo de empleo Aplicar para crear resúmenes tabulares en r