Как извлечь полные URL из всех абзацев на веб-странице с помощью jsoup - PullRequest
0 голосов
/ 26 марта 2011

Как извлечь полные URL-адреса из всех абзацев на веб-странице с помощью jsoup?Я могу извлечь только относительные URL.

Ожидается: http://fr.wikipedia.org/wiki/Husni_al-Zaim

Фактически: /Husni_al-Zaim

Мой код:

    Elements links = doc.select("p");
    Elements linkss = links.select("a");

    for (Element link : linkss) {
        if (link.text().matches("^[A-Z].+") == true) {
            list.add(new NamedLink(link.attr("href"), link.text()));
        }
    }

1 Ответ

1 голос
/ 26 марта 2011

Используйте .absUrl("href") вместо .attr("href").Это работает только тогда, когда вы получаете документ с веб-страницы или анализируете файл full с диска (и, следовательно, не переносите части из HTML в текст и обратно, как в вашем примере).

Document document = Jsoup.connect("http://stackoverflow.com").get();
Elements paragraphLinks = document.select("p a");
for (Element paragraphLink : paragraphLinks) {
    String absUrl = paragraphLink.absUrl("href");
    // ...
}
...