Извлечь список URL-адресов, полученных во время рендеринга HTML-страницы в Java - PullRequest
0 голосов
/ 26 марта 2019

Я хочу иметь возможность получить список всех URL-адресов, для которых браузер будет выполнять запрос GET при попытке открыть страницу. Например, если мы попытаемся открыть cnn.com, в первом HTTP-ответе будет несколько URL-адресов, которые рекурсивно запрашивает браузер.

Я не пытаюсь отобразить страницу, но пытаюсь получить список всех URL, которые запрашиваются при отображении страницы. Простого сканирования содержимого HTTP-ответа недостаточно, поскольку в CSS могут быть загруженные изображения. Есть ли способ сделать это на Java?

Мой вопрос похож на этот вопрос , но я хочу написать это на Java.

1 Ответ

0 голосов
/ 26 марта 2019

Вы можете использовать библиотеку Jsoup для извлечения всех ссылок с веб-страницы, например:

Document document = Jsoup.connect("http://google.com").get();
Elements links = document.select("a[href]");
for(Element link : links) {
    System.out.println(link.attr("href"));
}

Вот документация.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...