Я смотрю на написание гибридного приложения, которое будет брать заголовки из субреддита и пытаться нанести их на карту в зависимости от того, где они могут быть актуальны. Я также хотел бы добавить о таких вещах, как Twitter позже.
Что мне сложно планировать, так это как определить наиболее подходящую страну по названию. Мое первое предположение состоит в том, чтобы иметь список стран, а также их сопоставления (например, «английский» соответствует «Англия» и т. Д.) И проверять наличие этих элементов в тексте. Однако это, вероятно, будет довольно медленно и потребует от меня перечисления собственнического * названия для каждой страны.
Я планирую сделать это на Python (чтобы научиться его использовать), поэтому мне интересно, есть ли а) библиотека, которая делает это (и что я могу извлечь из этого уроки) или б) более очевидная способ сделать это?
Чтобы дать представление о типах ввода, с которым я работаю, вот несколько примеров и то, что я пытаюсь из них извлечь:
- «Ну, они не могут арестовать всех нас - давая средний палец британской правовой системе (рис.)»
- Ключевое слово: Британский (Великобритания)
- "Опрос: Викиликс Ассанж, ведущий времени" Человек года ", - получил австралийца Ассанжа, который стал занозой на стороне Пентагона после выпуска секретных военных документов США о войнах в Ираке и Афганистане. 21 736 голосов по состоянию на пятницу. "
- Ключевые слова: Афганистан, Ирак, [австралиец] (Афганистан, Ирак, [Австралия]) - Австралию будет трудно отследить, поскольку она в основном не имеет значения, но это приемлемо для моих целей
- "Запущена кибератака на сайт Нобелевской премии мира. Оставайтесь стильными, Китай".
- Ключевое слово: Китай (Китай)
- «Еврейский хирург отказывается оперировать пациента и выходит из операционной после обнаружения нацистской татуировки на руке пациента».
- Ключевые слова: нет - приемлемо для моих целей
* Возможно, это неправильное слово