Я пытаюсь сопоставить глобальные названия субнациональных округов с кодом GAUL. Но я обнаружил, что во многих неанглоязычных странах написание имен иногда отличается (несколько цифр) от английских. Я использовал приблизительное совпадение, чтобы поймать несколько, например,
Country Name AdmLevel | GaulName GaulCode
Algeria ain fettah adm2 | ain ferah 38429
Germany tubingen adm2 | tuebingen 16529
Germany dusseldorf adm2 | duesseldorf 16551
Egypt al ibrahimiyah adm2 | el ibrahimiya 66014
Egypt al janayin adm2 | al ganayin 66044
Некоторые базовые знания по этому иностранному языку помогут мне распознать сходство / различие, но для тех языков, которые я знаю мало, очень трудно отличить опечатки от различий в правописании.
Существуют ли способы / R-пакеты для унификации написания имен уровня администратора среди языков мира? Я знаю, что есть один для британо-американского английского, чтобы объединить правописание как «программа / программа», «центр / центр» ...
Я знаю, используя пакет кода страны, мы можем сделать что-то вроде
# German to French
countrycode('Albanien', 'country.name.de', 'iso.name.fr')
Какие-нибудь рекомендации для субнациональных?