R Слияние наборов данных с использованием двух условий и нечеткое слияние - PullRequest
0 голосов
/ 08 января 2020

Я пытаюсь объединить два набора данных в R с двумя условиями и нечетким объединением.

Набор данных 1: здесь несколько городов могут иметь один и тот же почтовый индекс, а название города записано неравномерно

Zip_code         Name   
33126            ST MAGNE
44000            Nantes
33126            La rivière
33124            LADOS
33126            Saint Aignan
33140            Villenave d'ornon

Набор данных 2: Здесь каждый город сопоставляется с уникальным почтовым индексом, а все названия пишутся однородно

Zip_code         Name               Unique_zipcode
33126            SAINT MAGNE        33436
44000            NANTES             44109
33126            LA RIVIERE         33356
33124            LADOS              33216
33126            SAINT AIGNAN       33365
33140            VILLENAVE D ORNON  33550

Поэтому я бы хотел, чтобы каждый город соответствовал уникальному почтовому индексу, зная, что:

  1. в моем начальном наборе данных, почтовый индекс можно сопоставить нескольким городам, поэтому я не могу напрямую объединить, используя df_final<-merge(df1,df2, by="Zip_code")

  2. названия городов в двух наборах данных написаны не одинаково, поэтому я теряю много строк, когда пытаюсь df_final<-merge(df1,df2, by=c("Zip_code","Name"))

Я пытался использовать функция agrep но я не знаю, как совместить это с другим условием.

Любая помощь будет оценена !!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...