¿Cómo describir la variación de datos en r
Un solo número no te dice mucho acerca de sus datos. A menudo es tan importante conocer la difusión de sus datos. Usted puede utilizar R para mirar esta extensión utilizando un número de diferentes enfoques.
Conteúdo
En primer lugar, se puede calcular bien el desacuerdo o el desviacion estandar para resumir la propagación en un solo número. Para ello, dispone de las funciones más útiles var () para la varianza y sd () para la desviación estándar. Por ejemplo, se calcula la desviación estándar de la variable mpg en la trama de datos carros Me gusta esto:
> Sd (automóviles $ mpg) [1] 6.026948
Al lado de la media y la variación, también puede echar un vistazo a los cuantiles. LA cuantil, o percentil, le indica la cantidad de sus datos se encuentra por debajo de un determinado valor. El 50 por ciento cuantil, por ejemplo, no es más que la mediana. Una vez más, R tiene algunas funciones útiles para ayudarle con mirar los cuantiles.
Cómo calcular el rango de datos en R
Los cuantiles más utilizados son en realidad los 0 por ciento y 100 por ciento de cuantiles. Usted podría llamarlos tan fácilmente el mínimo y el máximo, porque eso es lo que son. Usted puede obtener tanto min () y max () funciones juntos utilizando la range () función. Esta función convenientemente le da el rango de los datos. Por lo tanto, saber que entre dos valores todos los kilometrajes se encuentran, sólo tiene que hacer lo siguiente:
> Rango (automóviles $ mpg) [1] 10.4 33.9
Cómo calcular los datos cuartiles en I
La gama todavía le da información limitada. A menudo, los estadísticos informar de la primera y la tercera cuartil junto a la gama y la mediana. Estos cuartiles son, respectivamente, los 25 por ciento y 75 por ciento de cuantiles, que son los números para los cuales una cuarta parte y tres cuartas partes de los datos es más pequeño. Usted recibe estos números utilizando el cuantil () función, así:
> Cuantil (coches $ mpg) 0% 25% 50% 75% 100% 10.400 15.425 19.200 22.800 33.900
Los cuartiles no son los mismos que la bisagra inferior y superior calculado en el resumen de cinco números. Los dos últimos son, respectivamente, la mediana de la mitad inferior y superior de sus datos, y difieren ligeramente de los primer y tercer cuartil. Para obtener las cinco estadísticas numéricas, utilice el fivenum () función.
Como llegar en la velocidad con la función cuantil en I
los cuantil () función le puede dar cualquier cuantil que desea. Para ello, se utiliza el hubieron problemas argumento. Usted da la hubieron problemas (o probabilidades) como un número fraccionario. Para el 20 por ciento cuantil, por ejemplo, se utiliza 0.20 como argumento para el valor. Este argumento también tiene un vector como un valor, por lo que puede, por ejemplo, obtener las 5 por ciento y 95 por ciento de los cuantiles como éste:
> Cuantiles (automóviles $ mpg, probs = c (0.05, 0.95)) 5% 95% 11.995 31.300
El valor por defecto para el hubieron problemas argumento es un vector que representa el mínimo (0), el primer cuartil (0.25), la mediana (0,5), el tercer cuartil (0,75), y el máximo (1).
Todas estas funciones tienen un argumento na.rm que le permite eliminar todos N / A los valores antes de calcular la correspondiente estadística. Si usted no hace esto, cualquier vector que contiene N / A tendrá N / A como resultado. Esto funciona de forma idéntica a la na.rm argumento de la sum () función.