Спам не сложно получить. Разумно свежий спам в больших количествах не обязательно является большой проблемой; большая загадка - как получить ветчину. Если вы только создаете свой собственный фильтр спама, конечно, вы можете использовать свою собственную ветчину.
Общественный корпус SpamAssassin стареет, но у вас это есть; http://spamassassin.apache.org/publiccorpus/
Существует также корпус из спам-трека TREC, который несколько больше, но не намного новее или менее предвзятым; http://plg.uwaterloo.ca/~gvcormac/treccorpus/
Различные энтузиасты продолжают публиковать свой спам в Интернете, но большинство из них не включают полные заголовки и т. Д. Если вас интересует только фильтрация «мешков слов», возможно, этого достаточно.