Cómo realizar el seguimiento correlaciones de datos en r
Estadísticos encanta cuando se puede vincular una variable de datos a otro. R puede ayudar a encontrar esta relación. Luz del sol, por ejemplo, es perjudicial para las faldas: Cuanto más tiempo el sol brilla, las faldas más cortas convertirse. Por lo tanto, el número de horas de sol se correlaciona con la longitud de la falda.
Obviamente, no hay realmente una relación causal directa aquí - usted no encontrará faldas cortas durante el verano en las regiones polares. Pero, en muchos casos, la búsqueda de relaciones causales comienza con el examen de las correlaciones.
Para ilustrar esto, eche un vistazo a los famosos iris conjunto de datos en R. Uno de los más grandes estadistas de todos los tiempos, Sir Ronald Fisher, utiliza este conjunto de datos para ilustrar cómo las mediciones múltiples puede ser utilizado para discriminar entre diferentes especies. Este conjunto de datos contiene cinco variables, como se puede ver utilizando el nombres () función:
> Nombres (iris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" [4] "Petal.Width", "Especies"
Contiene mediciones de las características florales para tres especies de iris y de 50 flores para cada especie. Dos variables describen los sépalos (Sepal.Length y Sepal.Width), Otras dos variables describen los pétalos (Petal.Length y Petal.Width), Y la última variable (Especies) Es un factor que indica partir de la cual las especies viene la flor.
Aunque las apariencias engañan, desea calcular visualmente sus datos antes de excavar más profundamente en ella. Para trazar una cuadrícula de diagramas de dispersión para todas las combinaciones de dos variables en el conjunto de datos, sólo tiene que utilizar el gráfico() funcionar en su trama de datos, así:
> Plot (iris [-5])
Debido a que los diagramas de dispersión son útiles sólo para las variables continuas, se puede caer todas las variables que no son continuas. Demasiadas variables en la matriz de trama hace que las parcelas difíciles de ver. En el código anterior, se le cae la variable Especies, porque eso es un factor.
Puede ver el resultado de esta simple línea de código. Los nombres de las variables aparecen en los cuadrados de la diagonal, lo que indica que las variables se representa a lo largo del X-eje y la y-eje. Por ejemplo, la segunda parcela en la tercera fila tiene Sepal.Width en el X-eje y Petal.Length en el y-eje.