Эффективные способы унификации написания названий субнациональных округов? Специально для уровня администратора 2 - PullRequest
0 голосов
/ 31 августа 2018

Я пытаюсь сопоставить глобальные названия субнациональных округов с кодом GAUL. Но я обнаружил, что во многих неанглоязычных странах написание имен иногда отличается (несколько цифр) от английских. Я использовал приблизительное совпадение, чтобы поймать несколько, например,

Country     Name           AdmLevel  | GaulName      GaulCode
Algeria     ain fettah     adm2      | ain ferah     38429
Germany     tubingen       adm2      | tuebingen     16529
Germany     dusseldorf     adm2      | duesseldorf   16551
Egypt       al ibrahimiyah adm2      | el ibrahimiya 66014
Egypt       al janayin     adm2      | al ganayin    66044

Некоторые базовые знания по этому иностранному языку помогут мне распознать сходство / различие, но для тех языков, которые я знаю мало, очень трудно отличить опечатки от различий в правописании.

Существуют ли способы / R-пакеты для унификации написания имен уровня администратора среди языков мира? Я знаю, что есть один для британо-американского английского, чтобы объединить правописание как «программа / программа», «центр / центр» ...

Я знаю, используя пакет кода страны, мы можем сделать что-то вроде

# German to French
countrycode('Albanien', 'country.name.de', 'iso.name.fr')

Какие-нибудь рекомендации для субнациональных?

...