Как найти уникальные идентификаторы по нечетким строковым переменным - PullRequest
0 голосов
/ 14 февраля 2019

(извините за плохую формулировку названия, мне не хватает словарного запаса)

Рассмотрим следующий кадр данных, где id3 - это то, что мы хотим создать, рассматривая только столбцы id1 и id2

df = data.frame(id1 = c(1,1,2,2,3,3,4,4),
            id2 = c('CompanyA Inc','CompanyA Inc.','CompanyA Inc','CompanyA Inc','ComapnyB','ComapnyB','NewNameB','ComapnyB'),
            id3 = c(1,1,1,1,2,2,2,2))

Я хочу создать идентификатор (id3) для каждой "компании".id2 является «нечистым» идентификатором (в том смысле, что имена слегка меняются, но очистка строк не возможна).

df
   id1           id2 id3
1    1  CompanyA Inc   1
2    1 CompanyA Inc.   1
3    2  CompanyA Inc   1
4    2  CompanyA Inc   1
5    3      ComapnyB   2
6    3      ComapnyB   2
7    4      NewNameB   2
8    4      ComapnyB   2

Я полагаю, что нужен алгоритм, который для заданного значения id1 проверяет все значения id2 и возвращает соответствующие значения id1, а затем присваивает ему идентификатор, ноЯ не вижу, как это сделать правильно ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...