Обнаружить текст по теме? - PullRequest
0 голосов
/ 20 июля 2009

Я хотел бы просеять текст (в частности, сообщения в Твиттере), чтобы посмотреть, относятся ли они к определенной теме. Вы были на этом пути? Если это так, я бы хотел услышать, какой подход вы бы использовали.

В моем случае простой поиск по ключевым словам темы приносит мне полезный текст около 7% времени; ключевые слова имеют несколько значений, некоторые из которых не по теме. Для моего использования автоматическая фильтрация не должна быть идеальной; Я был бы рад, если бы извлеченные сообщения относились к теме 80% времени. Я также готов потерять 10-30% сообщений по теме.

Делая первый проход вручную, есть некоторые характеристики, которые делают сообщения весьма вероятными, как некоторые английские фразы. Другие характеристики дают высокую вероятность отклонения, такие как URL-адреса, несколько хэш-тегов и другие фразы. Другие сложнее оценить.

Я мог бы вручную сделать кучу регулярных выражений и связанных с ними весов и настраивать их вручную, пока не получил результат, который мне понравился. Это вполне может сработать. Но я могу назвать несколько других возможных подходов, и мне интересно, с какими из них читателям Stack Overflow повезло.

Спасибо!

1 Ответ

1 голос
/ 25 июля 2009

Это целое поле само по себе!Я рекомендую провести некоторые исследования в литературе по обработке естественного языка.

Есть специальные способы сделать это, но эти методы будут очень подвержены ошибкам: много ложных срабатываний и ложных отрицаний.Хотя это может быть хорошим началом.

  1. Если вы используете ключевое слово, вы можете попытаться устранить неоднозначность значения ключевого слова (если оно имеет несколько значений), используя слова вокруг ключевого слова ввопрос.Но для устранения этой неоднозначности потребуется обработанный корпус (пакет документов), чтобы определить, какие слова встречаются чаще всего, и может означать одно и то же.

  2. Вы можете измеритьрасстояние между анализируемым текстом и документом, о котором известно, что он похож.Вам нужно будет использовать количество слов из обоих текстовых источников, а затем сравнить векторы термина / документа.Для более тщательного изучения найдите «векторную модель документа».

Это хороший проект для работы, но он не простой.

...