Фильтр спама Java - PullRequest
       11

Фильтр спама Java

1 голос
/ 30 апреля 2010

Я пытаюсь создать фильтр спама в Java, используя алгоритм Байеса.

Я использую текстовый файл, содержащий сообщения электронной почты, и разделяю токены с помощью регулярных выражений, сохраняя эти значения в хэш-карте.

Моя проблема в том, что с регулярным выражением адреса электронной почты разделены, поэтому вместо: johnsmith@example.com

регулярное выражение вызывает токен: Джон кузнец Пример

То же самое относится и к IP-адресам, например, вместо: 192.55.34.322

регулярное выражение разделяет токены на: 192 55 34 322

Так кто-нибудь знает, как я мог читать сообщения электронной почты и сохранять их содержимое как есть?

ПОПРАВКА: я использую регулярное выражение, которое не сохраняет IP-адреса или адреса электронной почты. Это разделяет их.

Мне было интересно, не является ли регулярное выражение подходом, и можно ли мне предложить какие-либо альтернативы для меня, чтобы иметь возможность фильтровать электронные письма, чтобы выбрать характеристики, которые я желаю.

1 Ответ

0 голосов
/ 30 апреля 2010

Найдите способ отделить тело письма от информации заголовка перед токенизацией.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...