Методы геотаггинга или гео-маркировки текстового контента - PullRequest
9 голосов
/ 02 октября 2008

Какие есть хорошие алгоритмы для автоматической маркировки текста с указанием города / региона или происхождения? То есть, если блог о Нью-Йорке, как я могу сказать программно. Существуют ли пакеты / документы, которые утверждают, что делают это с какой-то степенью уверенности?

Я рассмотрел некоторые подходы, основанные на tfidf, правильные пересечения существительных, но пока что никаких впечатляющих успехов нет, и я буду признателен за идеи!

Более общий вопрос касается присвоения текстов темам, учитывая некоторый список тем.

Простые / наивные подходы предпочтительнее, чем полные байесовские, но я открыт.

Ответы [ 2 ]

12 голосов
/ 03 октября 2008

Вы ищете именованную систему распознавания сущностей или короткий NER. Есть несколько хороших наборов инструментов , которые могут вам помочь. В частности, у LingPipe есть приличный учебник . CAGEclass , кажется, ориентирован на NER по географическим названиям мест, но я еще не использовал его.

Вот хорошая запись в блоге о трудностях NER с географическими названиями мест.

Если вы работаете с Java, я бы порекомендовал использовать классы NER LingPipe. OpenNLP также имеет некоторые, но у первого есть лучшая документация.

Если вам нужен теоретический фон, Chavez et al. (2005) создали интересный синтаксис и задокументировали его.

2 голосов
/ 03 октября 2008

Скрытое семантическое отображение кажется потенциально подходящим. Это примерно такой же наивный алгоритм, как вы, вероятно, найдете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...