Как разобрать контент с <pre>? - PullRequest
0 голосов
/ 24 сентября 2011

Я использую jsoup для анализа нескольких вещей.

Я пытаюсь проанализировать этот тег

<pre>HEllo Worl<pre>

Но просто не могу заставить его работать.

Как бы я проанализировал это с помощью jsoup? \

    Document jsDoc = null;
     jsDoc = Jsoup.connect(url).get();
 Elements titleElements = jsDoc.getElementsByTag("pre");

Вот что у меня есть.

1 Ответ

1 голос
/ 24 сентября 2011

Работает нормально для меня с последней Jsoup:

<code>String html = "<p>lorem ipsum</p><pre>Hello World

dolor sit amet

"; Document document = Jsoup.parse (html); Элементы pres = document.select (" pre ");for (Элемент pre: pres) {System.out.println (pre.text ());}

Результат:

Hello World

Если вы ничего не получите, то HTML-код, который вы анализируете, просто не содержит никакого элемента * 1014. * Проверьте это самостоятельно

System.out.println(document.html());

Возможно, URL неверный. Возможно, есть какой-то JavaScriptкоторый изменяет HTML DOM с новыми элементами (Jsoup не интерпретирует и не выполняет JS). Возможно, сайт ожидает настоящий браузер вместо бота (тогда смените пользовательский агент). Возможно, сайту требуется логин (вам нужносохраняйте куки). Кто знает. Вы можете понять это с помощью настоящего веб-браузера, такого как Firefox или Chrome.

...