Извлечь адрес электронной почты из источника HTML - PullRequest
0 голосов
/ 10 февраля 2012

Я извлек html-источник с веб-страницы, и мне было интересно, как извлечь тексты, такие как адреса электронной почты, из этого источника.Я думаю об использовании jsoup как

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

, но это также дало бы мне много нежелательного текста.

Ответы [ 2 ]

0 голосов
/ 10 февраля 2012

Как сказал Шиплу, я думаю, что лучшее решение - это использовать регулярные выражения, взгляните на классы Pattern и Matcher, если вы используете Java.

0 голосов
/ 10 февраля 2012

Вы можете удалить все теги (если электронные письма не находятся внутри тегов). Затем примените регулярное выражение или проверьте каждое слово, соответствует ли оно шаблону электронной почты. Я обычно отмечаю его как электронное письмо, если оно содержит @ внутри слова и . находится после слов. В соответствии со стандартным форматом электронной почты, многие электронные письма не будут совпадать (например, "hello world@domain.com"). Да, электронная почта поддерживает пробелы до @!

...