R: Поиск похожих / «дублирующих» пар текстовых данных - PullRequest
0 голосов
/ 07 ноября 2018

У меня есть 2 столбца адреса, которые не являются точными дубликатами, но я хочу передать код, который, если первые 5 символов адреса столбца 1 совпадают с первыми 5 символами адреса столбца 2, то его значение true, если не будет ложь.

Вот как мои данные сейчас

Колонка 1


2310 Aldergrove Ave


3901 Замок Хейн

Колонка 2

2310Aldergrove

3901Замок

Так что для обоих случаев, так как первые 4 символа совпадают, я хочу, чтобы в моих третьих столбцах было указано True, True.

1 Ответ

0 голосов
/ 07 ноября 2018

Попробуйте:

data <- data.frame(col1=c("2310 Aldergrove Ave", "3901 Castle Hayne"), 
                   col2=c("2310Aldergrove", "3901Castle"))
substr(gsub(" ", "", data$col1), 1, 5) == substr(data$col2, 1, 5)
[1] TRUE TRUE
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...