Получить URL-адрес, скрытый в HTML-коде с помощью JSoup - PullRequest
0 голосов
/ 26 ноября 2011

У меня есть фрагмент HTML-кода веб-страницы (библиотека):

    <div class="qelcontent" id="4ed0e0ba4f1b16.47984984" style="display:block;"> 
<div class="description"><h4 class="first"><b>Amazon.com Product Description</b>
(<a href="https://rads.stackoverflow.com/amzn/click/com/0860783227" rel="nofollow noreferrer">ISBN 0860783227</a>, Hardcover)</h4>

Я хочу получить абсолютный URL-адрес из атрибута href. Я попробовал:

selector = document.select(".first .a[href]");

Но он вернулся null. Как я могу получить значение?

1 Ответ

0 голосов
/ 10 февраля 2012

Это решает эту конкретную проблему ... не уверен, будет ли она работать со всем вашим набором данных.

    String html = "<div class=\"qelcontent\" id=\"4ed0e0ba4f1b16.47984984\" style=\"display:block;\">" + 
    "<div class=\"description\"><h4 class=\"first\"><b>Amazon.com Product Description</b>" +
    "(<a href=\"http://rads.stackoverflow.com/amzn/click/0860783227\">ISBN 0860783227</a>, Hardcover)</h4>";

    Document doc = Jsoup.parse(html);
    System.out.println(doc.select(".first").select("a").attr("href"));
...