Как лучше всего в Python проверить, является ли строка названием города или названием страны (также историческая) - PullRequest
2 голосов
/ 09 июня 2019

У меня есть длинный список строк, содержащих названия городов или стран.Список также содержит некоторые названия стран, которых больше не существует, таких как Пруссия или Османская империя.

l= [
'Russia',
'Smolensk',
'Moscow',
'Moscow',
'France',
'France',
'Russia',
'Prussia',
'Austria',
'Sweden',
'Constantinople',
'Russia',
'Great Britain',
'Spain',
'Portugal',
'Germany',
'Frankfurt',
'France',
'Leningrad',
'Paris',
'DDR',
'Paris',
'France',
'Paris',
'the United States',
'St. Helena',
]

Я хочу разделить этот список на две l_countries и l_cities.Один содержит названия городов, а другой - названия стран.

Я думаю, что сложность состоит в том, чтобы определить названия старых городов и старых стран?

Как:

  • Пруссия (больше не существует)
  • ГДР (больше не существует)
  • Югославия (больше не существует)
  • Константинополь (теперь Стамбул)
  • Ленинград (ныне Санкт-Петербург)

1 Ответ

0 голосов
/ 09 июня 2019

Существуют источники для подобных данных, см. Набор данных исторических имен ICOW: исторические состояния .Имейте в виду, что существуют также более сложные ситуации, такие как города-штаты или штаты и города с общим названием, такие как Монако или Люксембург.

...