Если вы новичок в фильтрации спама, было бы неплохо начать с чего-то простого, например, с наивного байесовского классификатора. Таким образом, вы знакомитесь с проблемами, связанными с обработкой данных (чтением электронного письма, его классификацией, сохранением лексики и т. Д.), Не слишком увязая в самом коде классификации. Как только вы освоите основы своей программы, вы можете перейти к более сложным типам фильтрации.
Мне показалось полезным обсуждение в книге Завершение спама .