¿Cómo eliminar datos duplicados en r
Una aplicación muy útil de subconjuntos de datos es encontrar y eliminar valores duplicados. R tiene una función útil, duplicado (), que encuentra valores duplicados y devuelve un vector lógico que indica si el valor específico es un duplicado de un valor anterior. Esto significa que para valores duplicados, duplicado () devoluciones FALSO por primera ocurrencia y CIERTO para cada siguiente ocurrencia de ese valor, como en el siguiente ejemplo:
> Duplicado (c (1,2,1,3,1,4)) [1] false false false VERDADERO FALSO VERDADERO
Si intenta esto en un marco de datos, R comprueba automáticamente las observaciones (es decir, que trata a cada fila como un valor). Así, por ejemplo, con la trama de datos iris:
> Duplicado (iris) [1] false false false false false false false false false [10] false false false false false false false false false .... [136] false false false false false false FALSO VERDADERO FALSO [145] FALSO FALSO FALSE false false false
Si se fijan bien, observa que la fila 143 es un duplicado (porque el elemento 143a de su resultado tiene el valor CIERTO). También puede contar esta utilizando el cual() función:
> Que (duplicado (iris)) [1] 143
Ahora, para eliminar el duplicado de iris, que necesita para excluir esta fila de sus datos. Recuerde que hay dos formas de excluir datos utilizando subconjuntos:
Especifique un vector lógico, donde FALSO significa que se excluirá del elemento. los ! (signo de exclamación) operador es una negación lógica. Esto significa que se convierte CIERTO dentro FALSO y viceversa. Por lo tanto, para eliminar los duplicados de iris, hace lo siguiente:
> Iris [! Duplicados (iris),]
Especifique los valores negativos. En otras palabras:
> Índice lt; - que (duplicados (iris))> iris [-índice,]
En ambos casos, se dará cuenta de que su instrucción ha eliminado fila 143.