Нахождение общих частичных строк между 2 наборами данных в R - PullRequest
1 голос
/ 25 апреля 2019

У меня есть два набора данных - один со списком 1 миллион компаний, другой с 15 000.Мне нужно найти компании, общие для обоих.Проблема в том, что имена не совпадают, поэтому мне нужно сделать частичное совпадение.Например: в базе данных 1: ABC Industries, в базе данных 2: ABC.Могу ли я сопоставить эти две строки, используя R?

PS - я новичок в R, но готов учиться быстро.

1 Ответ

0 голосов
/ 25 апреля 2019
# short names
short <- c("ABC", "BCA")
# long names
long <- c("ABC industry", "TATA consultancy", "BFH printing", "HMC BCA", "ABC", "BCA corporation")

# using grep to find short names in long names column
long[grep(paste0(short, collapse = "|"), long)]
#> [1] "ABC industry"    "HMC BCA"         "ABC"             "BCA corporation"

Создано в 2019-04-25 пакетом представ (v0.2.1)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...