Cómo graficar datos resumidos en un ggplot2 en r

Una característica muy conveniente de ggplot2

es su gama de funciones para resumir los datos de I en la trama. Esto significa que a menudo no tiene la validez de resumir sus datos. Por ejemplo, la altura de las barras en un histograma indica cuántas observaciones de algo que tienes en tus datos.

El resumen estadístico de esto es para contar las observaciones. Los estadísticos se refieren a este proceso como hurgar en la basura, y la estadística predeterminada para geom_bar () es stat_bin ().

Análogo a la forma que cada geom tiene una estadística por defecto asociado, cada estadística también tiene un geom defecto.

Por lo tanto, esto plantea la pregunta: ¿Cómo se decide si se debe utilizar un geom o una estadística? En teoría, no importa si usted elige la geom o la estadística primera. En la práctica, sin embargo, a menudo es intuitiva para comenzar con un tipo de trama primero - en otras palabras, especificar un geom. Si a continuación desea agregar otra capa de resumen estadístico, utilice una estadística.

En esta parcela, que utilizó los mismos datos para crear un diagrama de dispersión de primera geom_point () y luego ha añadido una línea suave con stat_smooth ().

Echa un vistazo a algunos ejemplos prácticos de uso stat funciones.

StatDescripciónPor defecto Geom
stat_bin ()Cuenta el número de observaciones en contenedores.geom_bar ()
stat_smooth ()Crea una línea suave.geom_line ()
stat_sum ()Añade valores.geom_point ()
stat_identity ()No hay un resumen. Parcelas de datos como se ofrecen.geom_point ()
stat_boxplot ()Resume los datos de un diagrama de caja y bigotes.geom_boxplot ()
Cómo bin datos en ggplot2

Ya has visto cómo utilizar stat_bin () para resumir sus datos en los contenedores, ya que esta es la estadística por defecto de geom_bar (). Esto significa que las siguientes dos líneas de código producen parcelas idénticas:

> Ggplot (terremotos, aes (x = profundidad)) + geom_bar (binwidth = 50)> ggplot (terremotos, aes (x = profundidad)) + stat_bin (binwidth = 50)

Cómo suavizar los datos R en ggplot2

los ggplot2 paquete también hace que sea muy fácil crear líneas de regresión a través de sus datos. Se utiliza el stat_smooth () función para crear este tipo de línea.

Lo interesante de stat_smooth () es que hace uso de la regresión local de forma predeterminada. R tiene varias funciones que pueden hacer esto, pero ggplot2 utiliza el loess () la función de regresión local. Esto significa que si usted desea crear un modelo de regresión lineal que tiene que decir stat_smooth () utilizar una función más suave diferente. Esto se hace con el método argumento.

Para ilustrar el uso de una más suave, arranque mediante la creación de un diagrama de dispersión de desempleo en el longley conjunto de datos:

> Ggplot (Longley, aes (x = Año, y = Empleado)) + geom_point ()

A continuación, agregue una más suave. Esto es tan simple como añadir stat_smooth () a su línea de código.

> Ggplot (Longley, aes (x = Año, Y = empleado)) ++ geom_point () + () stat_smooth

Por último, dígale stat_smooth para utilizar un modelo de regresión lineal. Esto se hace añadiendo el argumento method = "lm".

imagen0.jpg
> Ggplot (Longley, aes (x = Año, Y = empleado)) ++ geom_point () + stat_smooth (method = "lm")

Cómo saber ggplot2 dejar sus datos unsummarized

A veces usted no quiere ggplot2 para resumir los datos en la trama. Esto suele suceder cuando los datos ya está pre-resumen o cuando cada línea de su trama de datos tiene que ser trazada por separado. En estos casos, usted quiere decir ggplot2 no hacer nada en absoluto, y la estadística de hacerlo es stat_identity ().




» » » » Cómo graficar datos resumidos en un ggplot2 en r