Я хотел бы просеять текст (в частности, сообщения в Твиттере), чтобы посмотреть, относятся ли они к определенной теме. Вы были на этом пути? Если это так, я бы хотел услышать, какой подход вы бы использовали.
В моем случае простой поиск по ключевым словам темы приносит мне полезный текст около 7% времени; ключевые слова имеют несколько значений, некоторые из которых не по теме. Для моего использования автоматическая фильтрация не должна быть идеальной; Я был бы рад, если бы извлеченные сообщения относились к теме 80% времени. Я также готов потерять 10-30% сообщений по теме.
Делая первый проход вручную, есть некоторые характеристики, которые делают сообщения весьма вероятными, как некоторые английские фразы. Другие характеристики дают высокую вероятность отклонения, такие как URL-адреса, несколько хэш-тегов и другие фразы. Другие сложнее оценить.
Я мог бы вручную сделать кучу регулярных выражений и связанных с ними весов и настраивать их вручную, пока не получил результат, который мне понравился. Это вполне может сработать. Но я могу назвать несколько других возможных подходов, и мне интересно, с какими из них читателям Stack Overflow повезло.
Спасибо!