Трудность при попытке классифицировать интересные / хорошие сообщения на форуме с помощью байесовских классификаторов или любой другой автоматизированной системы классификации заключается в вероятном отсутствии корреляции между словами и / или структурой слов сообщений в их относительной ценности или полезности.
Фильтры спама работают главным образом потому, что выбор слов и структура в целом систематически необычны: спамер пытается продвигать конкретный продукт, услугу и т. Д. Существуют разумные корреляции и шаблоны, которые можно выучить, хотя спамеры могут попытаться увеличить Трудность сделать это с помощью различных методов.
Такие шаблоны слов / структуры вряд ли существуют для хороших или плохих сообщений на форуме. Тем не менее, существует альтернативный способ реструктуризации проблемы, который может быть полезен:
- Разрешить пользователям классифицировать посты как хорошие или плохие или иным образом оценивать их, как вы описали.
- Используйте байесовские классификаторы или какой-либо другой метод статистического вывода для определения пользователей форума, которые имеют наивысшую корреляцию с поведением рейтинга всего сообщества, т. Е. Пользователей, которые имеют лучший вкус и являются хорошими предикторами за то, как сообщество в целом будет просматривать контент.
- Используйте рейтинги сообщений на форуме из пула пользователей-предсказателей, определенных на шаге 2, для фильтрации сообщений на форуме. Для этого требуется, чтобы один или несколько таких пользователей фактически ранжировали новый контент в какой-то момент, поэтому этот пул должен быть определенного размера и включать обычных пользователей, чтобы такая система фильтрации была полезной.
- Эта система классификаторов потребует периодической перестройки, поскольку сообщество пользователей, по-видимому, динамично, имеет меняющиеся интересы и т. Д.
Насколько хорошо предложенный мною подход действительно сработает над вашей проблемой, во многом зависит от характера форума, от того, насколько охотно пользователи оценивают контент, и от того, что у них общего для восприятия ценности опубликованных сообщений. содержание. Кроме того, общий размер сообщества пользователей может быть фактором: если он слишком мал, может не хватить данных для работы; если он слишком велик, у вас могут возникнуть проблемы с вычислительным масштабированием при использовании метода вывода классификатора для данных ранжирования.