вопрос наивного байесовского фильтра спама - PullRequest
4 голосов
/ 11 апреля 2010

Я планирую внедрить спам-фильтр, используя наивную байесовскую классификационную модель.

В Интернете я вижу много информации о наивной байесовской классификации, но проблема в том, что в ней много математических вещей, а не то, как четко это делается. И проблема в том, что я больше программист, чем математик (да, я выучил теорию вероятности и байесовскую теорию еще в школе, но долгое время не слышал, и у меня нет роскоши изучаю его сейчас (есть почти 3 недели, чтобы придумать рабочий прототип)).

Так что, если кто-то может объяснить или указать мне место, где это объясняется для программистов, а не для математика, это было бы очень полезно.

PS: Кстати, я должен реализовать это на C, если хотите знать. (

С уважением, Microkernel

Ответы [ 5 ]

4 голосов
/ 11 апреля 2010

В книге Программирование Коллективного разума есть глава, в которой рассматривается этот и другие методы. Глава (# 6) может быть понята без ссылки на предыдущие главы, написана ясно и обсуждает только минимальную математику, необходимую для выполнения работы.

2 голосов
/ 23 апреля 2010

Я очень рекомендую учебные пособия Эндрю Мура , и я думаю, вам следует начать с с этого .

2 голосов
/ 11 апреля 2010

Вы можете попробовать этот веб-сайт . У него есть некоторый исходный код.

1 голос
/ 23 июля 2010
1 голос
/ 11 апреля 2010

Вы также можете взглянуть на POPFile , движок спам-фильтра с открытым исходным кодом.

...