(извините за плохую формулировку названия, мне не хватает словарного запаса)
Рассмотрим следующий кадр данных, где id3
- это то, что мы хотим создать, рассматривая только столбцы id1
и id2
df = data.frame(id1 = c(1,1,2,2,3,3,4,4),
id2 = c('CompanyA Inc','CompanyA Inc.','CompanyA Inc','CompanyA Inc','ComapnyB','ComapnyB','NewNameB','ComapnyB'),
id3 = c(1,1,1,1,2,2,2,2))
Я хочу создать идентификатор (id3
) для каждой "компании".id2
является «нечистым» идентификатором (в том смысле, что имена слегка меняются, но очистка строк не возможна).
df
id1 id2 id3
1 1 CompanyA Inc 1
2 1 CompanyA Inc. 1
3 2 CompanyA Inc 1
4 2 CompanyA Inc 1
5 3 ComapnyB 2
6 3 ComapnyB 2
7 4 NewNameB 2
8 4 ComapnyB 2
Я полагаю, что нужен алгоритм, который для заданного значения id1
проверяет все значения id2
и возвращает соответствующие значения id1
, а затем присваивает ему идентификатор, ноЯ не вижу, как это сделать правильно ...