Я пытаюсь объединить два набора данных в R с двумя условиями и нечетким объединением.
Набор данных 1: здесь несколько городов могут иметь один и тот же почтовый индекс, а название города записано неравномерно
Zip_code Name
33126 ST MAGNE
44000 Nantes
33126 La rivière
33124 LADOS
33126 Saint Aignan
33140 Villenave d'ornon
Набор данных 2: Здесь каждый город сопоставляется с уникальным почтовым индексом, а все названия пишутся однородно
Zip_code Name Unique_zipcode
33126 SAINT MAGNE 33436
44000 NANTES 44109
33126 LA RIVIERE 33356
33124 LADOS 33216
33126 SAINT AIGNAN 33365
33140 VILLENAVE D ORNON 33550
Поэтому я бы хотел, чтобы каждый город соответствовал уникальному почтовому индексу, зная, что:
в моем начальном наборе данных, почтовый индекс можно сопоставить нескольким городам, поэтому я не могу напрямую объединить, используя df_final<-merge(df1,df2, by="Zip_code")
названия городов в двух наборах данных написаны не одинаково, поэтому я теряю много строк, когда пытаюсь df_final<-merge(df1,df2, by=c("Zip_code","Name"))
Я пытался использовать функция agrep
но я не знаю, как совместить это с другим условием.
Любая помощь будет оценена !!