Я пытаюсь создать фильтр спама в Java, используя алгоритм Байеса.
Я использую текстовый файл, содержащий сообщения электронной почты, и разделяю токены с помощью регулярных выражений, сохраняя эти значения в хэш-карте.
Моя проблема в том, что с регулярным выражением адреса электронной почты разделены, поэтому вместо:
johnsmith@example.com
регулярное выражение вызывает токен:
Джон
кузнец
Пример
То же самое относится и к IP-адресам, например, вместо:
192.55.34.322
регулярное выражение разделяет токены на:
192
55
34
322
Так кто-нибудь знает, как я мог читать сообщения электронной почты и сохранять их содержимое как есть?
ПОПРАВКА: я использую регулярное выражение, которое не сохраняет IP-адреса или адреса электронной почты. Это разделяет их.
Мне было интересно, не является ли регулярное выражение подходом, и можно ли мне предложить какие-либо альтернативы для меня, чтобы иметь возможность фильтровать электронные письма, чтобы выбрать характеристики, которые я желаю.