Какие есть хорошие алгоритмы для автоматической маркировки текста с указанием города / региона или происхождения? То есть, если блог о Нью-Йорке, как я могу сказать программно. Существуют ли пакеты / документы, которые утверждают, что делают это с какой-то степенью уверенности?
Я рассмотрел некоторые подходы, основанные на tfidf, правильные пересечения существительных, но пока что никаких впечатляющих успехов нет, и я буду признателен за идеи!
Более общий вопрос касается присвоения текстов темам, учитывая некоторый список тем.
Простые / наивные подходы предпочтительнее, чем полные байесовские, но я открыт.