Поиск ссылок на веб-странице с Java - PullRequest
2 голосов
/ 27 апреля 2010

При использовании Java исходный код веб-страницы хранится в строке. Я хочу извлечь все URL в исходном коде и вывести их. Я ужасно отношусь к регулярным выражениям и тому подобному и не знаю, как к этому приблизиться. Любая помощь будет принята с благодарностью.

Ответы [ 2 ]

6 голосов
/ 27 апреля 2010

Не используйте регулярное выражение . Используйте парсер как JSoup .

String html = "your html string";
Document document = Jsoup.parse(html); // Can also take an URL.
for (Element element : document.getElementsByTag("a")) {
    System.out.println(element.attr("href"));
}
4 голосов
/ 27 апреля 2010

Вы можете использовать HtmlUnit , чтобы извлечь ссылки, это просто:

WebClient wc = new WebClient();
URL url = new URL("http://www.oogly.co.uk/");
HtmlPage page = (HtmlPage) wc.getPage(url);
PrintWriter printWriter = new PrintWriter(new FileWriter(FILE_NAME));
List anchors = page.getAnchors();
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...