Разобрать весь HTML (средний размер 20 МБ) через URL с помощью JSOUP - PullRequest
0 голосов
/ 28 марта 2019
Document document = Jsoup.connect("some html url").get();
Elements catelist=  document.select("TEXT");

код выше не дает полный HTML.

Ответы [ 2 ]

1 голос
/ 28 марта 2019

Максимальный размер тела по умолчанию ограничен 1 МБ. Вы можете изменить это значение по умолчанию, используя maxBodySize(int):

//for example to set the max body size to 20 MB
Document document = Jsoup.connect(some html url).timeout(0).maxBodySize(1024*1024*20).get();

//or set it to 0 to have an unlimited size
Document document = Jsoup.connect(some html url).timeout(0).maxBodySize(0).get();
0 голосов
/ 28 марта 2019

Если вы хотите HTML-код полной страницы, тогда используйте:

document.html();

Если вы хотите HTML-код определенного тега, то используйте:

catelist.html();
...