Если вы хотите использовать Jsoup, вы должны убедиться, что страница, которую вы анализируете, не динамически изменяется с помощью javascript. Итак, есть две вещи, которые следует учитывать:
- Все ли ссылки, которые вы хотите проанализировать, в исходном коде страницы и не добавляются динамически в DOM после загрузки страницы? Вы можете проверить это, отключив JavaScript в вашем браузере и просматривая страницу. Google работает без JavaScript, так что это не проблема.
- Все ли сценарии находятся в исходном коде страницы, и никакие сценарии не добавляются javascript после загрузки страницы?
Вы можете проверить это, проанализировав необработанный источник страниц, видимый в большинстве браузеров, с помощью опции «Просмотр источника» и сравнив свои результаты с тем, что вы получите с помощью firebug / inspector.
Если вы хотите проанализировать много страниц, в результате могут отсутствовать динамически загружаемые библиотеки. Jsoup найдет:
<script src="jquery-3.3.1.min.js"></script>
но разобрать не будет надежно:
<script>
new Element("script", {src: "jquery-3.3.1.min.js", type: "text/javascript"});
</script>
потому что для этого потребуется выполнение javascript.