Как получить http content-length перед загрузкой документа в jsoup - PullRequest
0 голосов
/ 21 мая 2018

Я занимаюсь веб-скрепингом, используя jsoup в java в ширину.Другими словами, для каждой страницы я извлекаю все ссылки и добавляю их в очередь для очистки, затем очищаю и очищаю URL-адреса в цикле while, останавливаясь, когда очередь пуста.Я хочу отсортировать ссылки по размеру целевого документа, прежде чем они будут добавлены в границу / очередь для очистки, так что меньшие документы будут сначала очищены.Есть ли способ получить размер данного документа из URL-адреса, прежде чем загружать весь документ?Например, есть ли способ получить http Content-length от соединения перед вызовом connection.get () для загрузки всего документа?спасибо.

1 Ответ

0 голосов
/ 23 мая 2018

Вы можете использовать метод http HEAD для получения длины контента без загрузки тела запроса.С jsoup это может выглядеть так:

Response resp = Jsoup.connect(url).method(Method.HEAD).execute();
String length = resp.header("Content-Length");

Подробнее о методе http HEAD: https://developer.mozilla.org/en-US/docs/Web/HTTP/Methods/HEAD

...