Cómo extender la funcionalidad de texto con stringr en r
Si usted ha trabajado en absoluto con las funciones de manipulación de texto de R, es probable que se preguntan por qué todas estas funciones tienen nombres tan inmemorables y sintaxis aparentemente diverso. Si es así, usted no está solo.
De hecho, Hadley Wickham escribió un paquete disponible de CRAN que simplifica y estandariza el trabajo con texto en R. Este paquete se llama stringr, y se puede instalar mediante el uso de la consola de R o seleccionando Herramientas-instalar paquetes en RStudio.
Aunque usted tiene que instalar un paquete de una sola vez, usted tiene que cargarlo en el espacio de trabajo con el biblioteca () funcionar cada vez que inicie una nueva sesión de R y planea utilizar las funciones en ese paquete.
install.packages ("stringr") biblioteca (stringr)
Estas son algunas de las ventajas de utilizar stringr en lugar de las funciones estándar R:
Los nombres de funciones y argumentos son coherentes y más descriptivo. Por ejemplo, todos stringr funciones tienen nombres que empiecen con str_ (como str_detect () y str_replace ()).
stringr tiene una manera más coherente de tratar los casos con datos faltantes o valores vacíos.
stringr tiene una forma más consistente de asegurar que los datos de entrada y de salida son del mismo tipo.
los stringr equivalente para grep () es str_detect (), y el equivalente de gsub () es str_replace_all ().
Como punto de partida para explorar stringr, usted puede encontrar algunas de estas funciones útiles:
str_detect (): Detecta la presencia o ausencia de un patrón en una cadena
str_extract (): Extrae la primera pieza de una cadena que coincide con un patrón
str_length (): Devuelve la longitud de una cadena (en caracteres)
str_locate (): Localiza la posición de la primera ocurrencia de un patrón en una cadena
str_match (): Extrae el primer grupo emparejado de una cadena
str_replace (): Sustituye a la primera aparición de un patrón emparejado en una cadena
str_split (): Divide una cadena en un número variable de piezas
str_sub (): Extrae subseries de un vector de caracteres
str_trim (): Recorta los espacios en blanco desde el principio y final de la cadena
str_wrap (): Cuerdas Wraps en párrafos bien formateados