У меня есть набор географических местоположений, идентифицированных в тексте (скажем, с помощью TextRazor API), и я хочу получить связанные идентификаторы Geonames с помощью Geonames API.
Есть две проблемы, связанные с тем, что обычно существует больше чем одно лицо на имя:
1) В Лондоне и Канаде есть Лондон. Теоретически, я хотел бы использовать тот факт, что у меня есть несколько мест (например, Лондон, Канада и Theatre Theatre), но мне нужен хороший способ объединить их, когда существует более двух названий мест, и они находятся на разных изначально неизвестные уровни (город, страна, место публикации c место) и часть имен могут быть неактуальными или могут быть каким-либо образом объединены в кластеры.
2) Чтобы усложнить задачу, API поиска Geonames часто возвращает много более 2 результатов. Например, http://api.geonames.org/searchJSON?q=London&maxRows=10 возвращает общее количество результатов 7820, включая Восточный Лондон, Внутренний Лондон и др. c.
Поиск идей для извлечения лучших идентификаторов Geonames