Байесовская фильтрация для сообщений на форуме - PullRequest
2 голосов
/ 17 февраля 2010

Кто-нибудь использовал байесовский фильтр, чтобы позволить участникам форума классифицировать сообщения, поэтому со временем форум отображает только интересные сообщения? Байесовский фильтр, кажется, хорошо работает для обнаружения спама в электронной почте. Является ли реализация байесовского фильтра эффективным методом фильтрации сообщений на форуме для пользователей?

Ответы [ 2 ]

1 голос
/ 06 июня 2010

Трудность при попытке классифицировать интересные / хорошие сообщения на форуме с помощью байесовских классификаторов или любой другой автоматизированной системы классификации заключается в вероятном отсутствии корреляции между словами и / или структурой слов сообщений в их относительной ценности или полезности.

Фильтры спама работают главным образом потому, что выбор слов и структура в целом систематически необычны: спамер пытается продвигать конкретный продукт, услугу и т. Д. Существуют разумные корреляции и шаблоны, которые можно выучить, хотя спамеры могут попытаться увеличить Трудность сделать это с помощью различных методов.

Такие шаблоны слов / структуры вряд ли существуют для хороших или плохих сообщений на форуме. Тем не менее, существует альтернативный способ реструктуризации проблемы, который может быть полезен:

  1. Разрешить пользователям классифицировать посты как хорошие или плохие или иным образом оценивать их, как вы описали.
  2. Используйте байесовские классификаторы или какой-либо другой метод статистического вывода для определения пользователей форума, которые имеют наивысшую корреляцию с поведением рейтинга всего сообщества, т. Е. Пользователей, которые имеют лучший вкус и являются хорошими предикторами за то, как сообщество в целом будет просматривать контент.
  3. Используйте рейтинги сообщений на форуме из пула пользователей-предсказателей, определенных на шаге 2, для фильтрации сообщений на форуме. Для этого требуется, чтобы один или несколько таких пользователей фактически ранжировали новый контент в какой-то момент, поэтому этот пул должен быть определенного размера и включать обычных пользователей, чтобы такая система фильтрации была полезной.
  4. Эта система классификаторов потребует периодической перестройки, поскольку сообщество пользователей, по-видимому, динамично, имеет меняющиеся интересы и т. Д.

Насколько хорошо предложенный мною подход действительно сработает над вашей проблемой, во многом зависит от характера форума, от того, насколько охотно пользователи оценивают контент, и от того, что у них общего для восприятия ценности опубликованных сообщений. содержание. Кроме того, общий размер сообщества пользователей может быть фактором: если он слишком мал, может не хватить данных для работы; если он слишком велик, у вас могут возникнуть проблемы с вычислительным масштабированием при использовании метода вывода классификатора для данных ранжирования.

0 голосов
/ 06 июня 2010

Разве совместная фильтрация не будет работать лучше?

...