Question

Мой вопрос довольно тесно связан с этим , но я решил открыть другую ветку вопросов. Я надеюсь, что это хорошо.

Я создаю спам-фильтр, используя NLTK и в Python, но я только начал.

Мне интересно, какой корпус спама я могу использовать и как его импортировать? Я не нашел никаких «встроенных в NLTK» спам-корпусов ( здесь ).

Заранее спасибо.

Franck Dernoncourt · Answer 1 · 27 марта 2012

В этой презентации используется набор данных enron-spam (200 000+ электронных писем).

Наборы для обучения и тестирования взяты из набора данных из 200 000+Электронные письма Enron, содержащие как спам, так и ветчину

tripleee · Answer 2 · 27 марта 2012

Спам не сложно получить. Разумно свежий спам в больших количествах не обязательно является большой проблемой; большая загадка - как получить ветчину. Если вы только создаете свой собственный фильтр спама, конечно, вы можете использовать свою собственную ветчину.

Общественный корпус SpamAssassin стареет, но у вас это есть; http://spamassassin.apache.org/publiccorpus/

Существует также корпус из спам-трека TREC, который несколько больше, но не намного новее или менее предвзятым; http://plg.uwaterloo.ca/~gvcormac/treccorpus/

Различные энтузиасты продолжают публиковать свой спам в Интернете, но большинство из них не включают полные заголовки и т. Д. Если вас интересует только фильтрация «мешков слов», возможно, этого достаточно.

Какой корпус спама я могу использовать в NLTK?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой корпус спама я могу использовать в NLTK?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы