Cómo suss estadísticas en ggplot2 en r

Después de los datos, la cartografía y GEOMs, el cuarto elemento de un ggplot2

capa en I describe cómo se deben resumir los datos. En ggplot2, que se refieren a este resumen estadístico como stat.

Una característica muy conveniente de ggplot2 es su gama de funciones para resumir sus datos en la trama. Esto significa que a menudo no tiene la validez de resumir sus datos. Por ejemplo, la altura de las barras en un histograma indica cuántas observaciones de algo que tienes en tus datos. El resumen estadístico de esto es para contar las observaciones. Los estadísticos se refieren a este proceso como hurgar en la basura, y la estadística predeterminada para geom_bar () es stat_bin ().

Análogo a la forma que cada geom tiene un defecto asociado stat, cada stat también tiene un valor predeterminado geom.

Por lo tanto, esto plantea la pregunta: ¿Cómo se decide si se debe utilizar un geom o una stat? En teoría, no importa si usted elige la geom o el stat primero. En la práctica, sin embargo, a menudo es intuitiva para comenzar con un tipo de trama primero - en otras palabras, especificar una geom. Si a continuación desea agregar otra capa de resumen estadístico, utilice un stat.

Hacer un histograma con & lt; span class =geom_bar (). "width =" 535 "/>
Hacer un histograma con geom_bar ().

En esta parcela, que utilizó los mismos datos para crear un diagrama de dispersión de primera geom_point (), y luego ha añadido una línea suave con stat_smooth ().

Aquí algunos ejemplos prácticos de uso stat funciones.

StatDescripciónPor defecto Geom
stat_bin ()Cuenta el número de observaciones en contenedores.geom_bar ()
stat_smooth ()Crea una línea suave.geom_line ()
stat_sum ()Añade valores.geom_point ()
stat_identity ()No hay un resumen. Parcelas de datos como se ofrecen.geom_point ()
stat_boxplot ()Resume los datos de un diagrama de caja y bigotes.geom_boxplot ()

Datos Binning

Ya has visto cómo utilizar stat_bin () para resumir sus datos en los contenedores, ya que esta es la estadística por defecto de geom_bar (). Esto significa que las siguientes dos líneas de código producen parcelas idénticas:

> Ggplot (terremotos, aes (x = profundidad)) + geom_bar (binwidth = 50)> ggplot (terremotos, aes (x = profundidad)) + stat_bin (binwidth = 50)

Datos Suavizante

los ggplot2 paquete también hace que sea muy fácil crear líneas de regresión a través de sus datos. Se utiliza el stat_smooth () función para crear este tipo de línea.

Lo interesante de stat_smooth () es que hace uso de la regresión local de forma predeterminada. R tiene varias funciones que pueden hacer esto, pero ggplot2 utiliza el loess () la función de regresión local. Esto significa que si usted desea crear un modelo de regresión lineal, lo que tienes que decir stat_smooth () utilizar una función más suave diferente. Esto se hace con el método argumento.

Para ilustrar el uso de una más suave, arranque mediante la creación de un diagrama de dispersión de desempleo en el longley conjunto de datos:

> P lt; - ggplot (Longley, aes (x = Año, Y = empleado)) + geom_point ()> p

A continuación, agregue una más suave. Esto es tan simple como añadir stat_smooth () a su línea de código.

> P + stat_smooth ()

Su gráfico debe ser similar a la trama a la izquierda de la imagen de abajo.

A veces, ggplot2 genera mensajes con consejos e información adicionales. Mientras usted no ve la advertencia o error, puede ignorar estos mensajes. En este caso, stat_smooth () le dice que el valor por defecto más suave es un método llamado loess (suavizado local). El mensaje también dice que usted puede utilizar métodos de suavizado alternativas.

Por último, utilice stat_smooth () a la medida y trazar un modelo de regresión lineal. Esto se hace añadiendo el argumento method ="lm":

> P + stat_smooth (método = " lm ")

Su gráfico debe parecerse a la trama de la derecha.

Adición de líneas de regresión con & lt; span class =stat_smooth (). "width =" 535 "/>
Adición de líneas de regresión con stat_smooth ().

No hacer nada con la identidad

A veces usted no quiere ggplot2 para resumir los datos en la trama. Esto suele suceder cuando los datos ya está pre-resumen o cuando cada línea de su trama de datos tiene que ser trazada por separado. En estos casos, usted quiere decir ggplot2 no hacer nada en absoluto, y la estadística de hacerlo es stat_identity (). Usted probablemente ha notado que stat_identity es la estadística de forma predeterminada para los puntos y líneas.




» » » » Cómo suss estadísticas en ggplot2 en r