Question

Кто-нибудь использовал байесовский фильтр, чтобы позволить участникам форума классифицировать сообщения, поэтому со временем форум отображает только интересные сообщения? Байесовский фильтр, кажется, хорошо работает для обнаружения спама в электронной почте. Является ли реализация байесовского фильтра эффективным методом фильтрации сообщений на форуме для пользователей?

Joel Hoff · Answer 1 · 06 июня 2010

Трудность при попытке классифицировать интересные / хорошие сообщения на форуме с помощью байесовских классификаторов или любой другой автоматизированной системы классификации заключается в вероятном отсутствии корреляции между словами и / или структурой слов сообщений в их относительной ценности или полезности.

Фильтры спама работают главным образом потому, что выбор слов и структура в целом систематически необычны: спамер пытается продвигать конкретный продукт, услугу и т. Д. Существуют разумные корреляции и шаблоны, которые можно выучить, хотя спамеры могут попытаться увеличить Трудность сделать это с помощью различных методов.

Такие шаблоны слов / структуры вряд ли существуют для хороших или плохих сообщений на форуме. Тем не менее, существует альтернативный способ реструктуризации проблемы, который может быть полезен:

Разрешить пользователям классифицировать посты как хорошие или плохие или иным образом оценивать их, как вы описали.
Используйте байесовские классификаторы или какой-либо другой метод статистического вывода для определения пользователей форума, которые имеют наивысшую корреляцию с поведением рейтинга всего сообщества, т. Е. Пользователей, которые имеют лучший вкус и являются хорошими предикторами за то, как сообщество в целом будет просматривать контент.
Используйте рейтинги сообщений на форуме из пула пользователей-предсказателей, определенных на шаге 2, для фильтрации сообщений на форуме. Для этого требуется, чтобы один или несколько таких пользователей фактически ранжировали новый контент в какой-то момент, поэтому этот пул должен быть определенного размера и включать обычных пользователей, чтобы такая система фильтрации была полезной.
Эта система классификаторов потребует периодической перестройки, поскольку сообщество пользователей, по-видимому, динамично, имеет меняющиеся интересы и т. Д.

Насколько хорошо предложенный мною подход действительно сработает над вашей проблемой, во многом зависит от характера форума, от того, насколько охотно пользователи оценивают контент, и от того, что у них общего для восприятия ценности опубликованных сообщений. содержание. Кроме того, общий размер сообщества пользователей может быть фактором: если он слишком мал, может не хватить данных для работы; если он слишком велик, у вас могут возникнуть проблемы с вычислительным масштабированием при использовании метода вывода классификатора для данных ранжирования.

Patrick Hendricks · Answer 2 · 06 июня 2010

Разве совместная фильтрация не будет работать лучше?

Байесовская фильтрация для сообщений на форуме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Байесовская фильтрация для сообщений на форуме

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы