Cómo tomar muestras de datos en r

Los estadísticos a menudo tienen que tomar muestras de datos y luego calcular las estadísticas. Tomando una muestra es fácil con R, porque una muestra es realmente nada más que un subconjunto de datos. Para ello, se hace uso de muestra (), que tiene un vector como input- luego te dicen que el número de muestras a extraer de esa lista.

Digamos que usted quería simular lanzamientos de un dado, y usted desea conseguir diez resultados. Debido a que el resultado de una única tirada de un dado es un número entre uno y seis, el código es el siguiente:

> Muestra (1: 6, 10, reemplace = TRUE) [1] 2 2 5 5 3 3 5 6 3 5

Tu dices muestra () para volver diez valores, cada uno en el rango 16. Debido a que cada rollo de la matriz es independiente de cualquier otro rollo de la matriz, usted está de muestreo con reemplazo. Esto significa que usted toma una muestra de la lista y restablece la lista a su estado original (en otras palabras, se pone el elemento que acaba atraído de nuevo en la lista).

Para ello, se agrega el argumento replace = TRUE, como en el ejemplo.

Debido a que el valor de retorno de la muestra () la función es un número determinado al azar, si intenta esta función repetidamente, obtendrás resultados diferentes cada vez. Este es el comportamiento correcto en la mayoría de los casos, pero a veces es posible que desee obtener resultados repetibles cada vez que se ejecuta la función.

Por lo general, esto sólo ocurrirá cuando se desarrolla y probar su código, o si usted quiere estar seguro de que alguien más puede probar el código y obtener los mismos valores que hiciste. En este caso, es costumbre para especificar una llamada valor de la semilla.

Si proporciona un valor de la semilla, la secuencia de números aleatorios se restablecerá a un estado conocido. Esto se debe a R no crea números verdaderamente aleatorios, pero sólo números seudo-aleatorio. Una secuencia pseudo-aleatoria es un conjunto de números que, para todos los propósitos prácticos, parecen ser al azar, pero fueron generados por un algoritmo. Cuando se establece una semilla de partida para un proceso de pseudo-aleatorio, R siempre devuelve la misma secuencia pseudo-aleatoria.

Pero si no se establece la semilla, R se basa en el estado actual del generador de números aleatorios (RNG). En el arranque R puede establecer una semilla aleatoria para inicializar el generador de números aleatorios, pero cada vez que lo llame, R se inicia desde el siguiente valor de la secuencia de números aleatorios. Usted puede leer la Ayuda ?RNG para obtener más detalles.

En R, se utiliza el set.seed () función para especificar el valor inicial de la semilla. El argumento para set.seed () es cualquier valor entero.

> Set.seed (1)> muestra (1: 6, 10, reemplace = TRUE) [1] 2 3 4 6 2 6 6 4 4 1

Si dibuja otra muestra, sin establecer una semilla, se obtiene un conjunto diferente de resultados, como era de esperar:

> Muestra (1: 6, 10, reemplace = TRUE) [1] 2 2 5 5 3 3 5 6 3 5

Ahora, para demostrar que set.seed () en realidad no restablecer el RNG, inténtelo de nuevo. Pero esta vez, establecer la semilla, una vez más:

> Set.seed (1)> muestra (1: 6, 10, reemplace = TRUE) [1] 2 3 4 6 2 6 6 4 4 1

Usted recibe exactamente los mismos resultados que la primera vez que utilizó set.seed (1).

Puedes usar muestra () para tomar muestras de la trama de datos iris. En este caso, es posible que desee utilizar el argumento replace = FALSO. Debido a que este es el valor por defecto de la reemplazar argumento, no es necesario escribir explícitamente:

> Set.seed (123)> Índice lt; - la muestra (1: nRow (iris), 5)> índice [1] 44 119 62 133 142> iris [índice] Sepal.Length Sepal.Width Petal.Length Petal.Width Species44 5,0 3,5 1,6 0,6 7,7 2,6 setosa119 6,9 2,3 5,9 3,0 4,2 virginica62 1.5 versicolor133 6,4 2,8 5,6 2,2 6,9 3,1 5,1 virginica142 2.3 virginica

Sobre el autor

Cómo agregar campos calculados a los datos en r

Después de crear el subconjunto apropiado de sus datos, el siguiente paso en el análisis es probable que sea para realizar algunos cálculos con R.Cómo hacer aritmética en columnas de una trama de datosR hace que sea muy fácil de realizar…

Cómo calcular las correlaciones de datos en r

La cantidad en la que dos variables de datos varían juntos puede ser descrita por el coeficiente de correlación. En R, se obtiene la correlación entre un conjunto de variables muy fácilmente mediante el uso de la cor () función. Sólo tiene que…

Cómo obtener los valores de los vectores en r

Vectores sería muy poco práctico si no podía mirar hacia arriba y manipular valores individuales. Puede realizar estas tareas fácilmente mediante el uso de un avanzado sistema de indexación de R, de gran alcance.¿Cómo R hace la…

Cómo manejar el infinito en r

En algunos casos, usted no tiene valores reales para calcular con. En la mayoría de los conjuntos de datos de la vida real en R, de hecho, por lo menos unos pocos valores que faltan. Además, algunos cálculos tienen como resultado el infinito…

Cómo hacer malabares con las dimensiones y reemplazar los valores en una matriz en la r

De forma predeterminada, R siempre trata de simplificar los objetos al menor número de dimensiones posibles al utilizar los soportes para extraer los valores de una matriz. Por lo tanto, si usted pide una sola columna o fila, R hará que un vector…

¿Cómo hacer un ejemplo mínimo reproducible para obtener ayuda con r

Cuando le preguntas a la comunidad R en busca de ayuda, obtendrá el consejo más útil si usted sabe cómo hacer un ejemplo reproducible mínima. LA ejemplo reproducible es una muestra de código y datos que cualquier otro usuario puede ejecutar y…

Cómo subconjunto tramas de datos en r

Ahora que ha revisado las reglas para la creación de subconjuntos, puede probar con algunas tramas de datos en R. Sólo tienes que recordar que una trama de datos es un objeto bidimensional y contiene filas, así como columnas. Esto significa que…

Cómo recorrer una lista o datos de trama con r aplicar funciones

Cuando los datos están en la forma de una lista, y desea realizar cálculos en cada elemento de esa lista en R, la adecuada aplicar función es lapply (). Por ejemplo, para obtener la clase de cada elemento de la iris, Haz lo siguiente:> Lapply…

Cómo utilizar argumentos cuando se transforma en una secuencia de comandos r

Hay múltiples maneras de utilizar argumentos en R. Aquí hay algunas maneras que usted puede especificar argumentos en una llamada de función al transformar un guión.Los argumentos siempre se nombran cuando se define la función. Pero cuando se…

Objetos de subdivisión r

Vectores, listas y cuadros de datos juegan un papel importante en la representación de datos en R, por lo que ser capaz de especificar de manera sucinta y correctamente un subconjunto de sus datos es importante.Hay tres operadores principales que…

Cómo tejer la puntada de doble semilla

En esta variación de la puntada de la semilla, que la puntada de doble semilla de forma horizontal y vertical - alternativa 2 tejidos de punto con las puntillas 2 de 2 filas y luego invertir la secuencia. La siguiente figura muestra la puntada de…

Evitar el sesgo con muestras estadísticas aleatorias

¿Cómo se selecciona una muestra estadística de una manera que evita el sesgo? La palabra clave es azar. LA muestra aleatoria es una muestra seleccionada por la igualdad de oportunidades- es decir, cada posible muestra del mismo tamaño que el…

maniqui-es.com » Computadoras y software » Programación » R » Cómo tomar muestras de datos en r