JSoup возвращает неверный HTML - PullRequest
0 голосов
/ 26 июня 2018

Я работаю с JSoup 1.11.3 от Maven. Я пытаюсь сделать абсолютных родственников href, мой код в следующем:

public String updateHrefs (String htmlContent, String baseUrl, String currentUrl) {
    org.jsoup.nodes.Document doc = Jsoup.parse(htmlContent);
    Elements links = doc.getElementsByTag("a");
    for (org.jsoup.nodes.Element link : links) {
      String absHref = link.attr("href");
      System.out.println("URL before " + absHref);
      if (absHref.equals("")) {
          absHref = baseUrl;
      } else if ((absHref.length()>1) && absHref.substring(0, 2).equals("//")) {
          absHref = absHref;
      } else if (absHref.equals("http")) {
          absHref = absHref;
      } else if (absHref.substring(0, 1).equals("/")) {
          absHref = baseUrl + absHref;
      } else if (absHref.substring(0, 1).equals("#")) {
              absHref = baseUrl + currentUrl + absHref;
      } else {
          absHref = baseUrl + "/" + absHref;
      }
      System.out.println("URL after " + absHref);

      link.attr("href", absHref);
    }
    return doc.outerHtml();
}

В конце я передаю результат в механизм html-to-pdf, и он возвращает ошибку, что

 <p> 
Тег

не закрыт. Я попробовал механизм html-to-pdf с оригинальным html, и он работает: возможно ли, что в JSoup есть проблема? спасибо

...