Как создать собственную базу спама - PullRequest
0 голосов
/ 25 августа 2010

Я работаю над проектом, в котором мне нужно создать базу данных спама и принимать заявки от пользователей.Принятие представлений легко, но я пытался выяснить, как взвесить эти представления.

Допустим, база данных состоит из слов, и я получаю следующие представления: * 137x "банан" * 22x "яблоко"* 1x "взрывающаяся мышь"

Теперь есть довольно хороший шанс, что слово "банан" является спамом.«Яблоко» может быть, но, вероятно, должно рассматриваться в сером списке, в то время как «взрывающаяся мышь», вероятно, просто шутка.

У кого-нибудь есть какие-нибудь хорошие идеи?

Ура!

1 Ответ

0 голосов
/ 25 августа 2010

Стандартный метод "байесовский", где вы сравниваете частоты слов в спаме со словами частот в не-спаме (он же "ветчина"). Проблема в том, что в то время как люди будут с готовностью пересылать вам весь свой спам, они вряд ли захотят пересылать вам свою ветчину.

Одна программа, которая делает это, уже называется "bogofilter". Для него есть стандартный пакет Debian.

...