ошибка при извлечении некоторых символов с помощью «gsub» - PullRequest
0 голосов
/ 21 января 2020

Я хочу извлечь какой-то ключ между комментариями. Это то, что я пробовал:

x<-c("0000169/2020", " 00038/01-2020 para la busqueda y localizacion d", "037/01-2020  coment",
     00076/01-2020  se añ")
x2<-gsub("{0,1}[0-9]{4}(\\ {1,}.*)", "", x)

Вот результат:

x2 
c("0000169/2020", " 00038/01-", "037/01-",00076/01-")

Вот что я хочу:

c("0000169/2020", " 00038/01-2020", "037/01-2020",00076/01-2020")

Как я могу устранить текст durplus без устранения части кода, которую я пытался выделить? Это должна быть часть после кода, потому что шаблоны кода немного отличаются.

1 Ответ

1 голос
/ 21 января 2020

Можете ли вы использовать что-то вроде этого?

sub("(\\d+/\\d+(-\\d+)?).*", "\\1", x)
#[1] "0000169/2020"   " 00038/01-2020" "037/01-2020"    "00076/01-2020"

При этом извлекается число, за которым следует "/", за которым следует еще один номер с необязательным "-" и номером.

Тот же шаблон можно использовать в str_extract с stringr

stringr::str_extract(x, "\\d+/\\d+(-\\d+)?")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...