Какой корпус спама я могу использовать в NLTK? - PullRequest
7 голосов
/ 26 марта 2012

Мой вопрос довольно тесно связан с этим , но я решил открыть другую ветку вопросов. Я надеюсь, что это хорошо.

Я создаю спам-фильтр, используя NLTK и в Python, но я только начал.

Мне интересно, какой корпус спама я могу использовать и как его импортировать? Я не нашел никаких «встроенных в NLTK» спам-корпусов ( здесь ).

Заранее спасибо.

Ответы [ 2 ]

9 голосов
/ 27 марта 2012

В этой презентации используется набор данных enron-spam (200 000+ электронных писем).

Наборы для обучения и тестирования взяты из набора данных из 200 000+Электронные письма Enron, содержащие как спам, так и ветчину

1 голос
/ 27 марта 2012

Спам не сложно получить. Разумно свежий спам в больших количествах не обязательно является большой проблемой; большая загадка - как получить ветчину. Если вы только создаете свой собственный фильтр спама, конечно, вы можете использовать свою собственную ветчину.

Общественный корпус SpamAssassin стареет, но у вас это есть; http://spamassassin.apache.org/publiccorpus/

Существует также корпус из спам-трека TREC, который несколько больше, но не намного новее или менее предвзятым; http://plg.uwaterloo.ca/~gvcormac/treccorpus/

Различные энтузиасты продолжают публиковать свой спам в Интернете, но большинство из них не включают полные заголовки и т. Д. Если вас интересует только фильтрация «мешков слов», возможно, этого достаточно.

...