Question

Я работаю над проектом, в котором мне нужно создать базу данных спама и принимать заявки от пользователей.Принятие представлений легко, но я пытался выяснить, как взвесить эти представления.

Допустим, база данных состоит из слов, и я получаю следующие представления: * 137x "банан" * 22x "яблоко"* 1x "взрывающаяся мышь"

Теперь есть довольно хороший шанс, что слово "банан" является спамом.«Яблоко» может быть, но, вероятно, должно рассматриваться в сером списке, в то время как «взрывающаяся мышь», вероятно, просто шутка.

У кого-нибудь есть какие-нибудь хорошие идеи?

Ура!

Paul Tomblin · Answer 1 · 25 августа 2010

Стандартный метод "байесовский", где вы сравниваете частоты слов в спаме со словами частот в не-спаме (он же "ветчина"). Проблема в том, что в то время как люди будут с готовностью пересылать вам весь свой спам, они вряд ли захотят пересылать вам свою ветчину.

Одна программа, которая делает это, уже называется "bogofilter". Для него есть стандартный пакет Debian.

Как создать собственную базу спама

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как создать собственную базу спама

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы