У меня совсем недавно противоречивое поведение Jsoup, когда дело доходит до тегов tbody,
Когда я анализирую удаленную страницу в Интернете с помощью структуры HTML, например:
<table>
<tbody>
<tr><td>... text
</tbody>
</table>
Jsoup не включает элемент tbody в элементы, возвращаемые методом select ().
Я использую метод connect (). Get () для загрузки удаленной страницы в переменную Document, например:
Document doc = Jsoup.connect(url).get();
String expr = "table>tr>td";
String parsedTxt = doc.select(expr).text();
Но когда я проанализировал ту же страницу на локальном диске (после того, как я ее скачал). Jsoup включает тег tbody. Мое выражение больше не будет работать, потому что отсутствует элемент tbody.
Я использую:
File input = new File(locationOfFile);
Document doc = Jsoup.parse(input, "UTF-8", "");
Мое выражение Jsoup работает только в первом случае.
Есть ли способ заставить Jsoup распознать элемент tbody (или удалить его), чтобы одно и то же выражение могло использоваться в обоих случаях?
Это нормальное поведение от Jsoup?
Должен ли я использовать метод connect при анализе локальной страницы?