Question

Я хочу иметь возможность получить список всех URL-адресов, для которых браузер будет выполнять запрос GET при попытке открыть страницу. Например, если мы попытаемся открыть cnn.com, в первом HTTP-ответе будет несколько URL-адресов, которые рекурсивно запрашивает браузер.

Я не пытаюсь отобразить страницу, но пытаюсь получить список всех URL, которые запрашиваются при отображении страницы. Простого сканирования содержимого HTTP-ответа недостаточно, поскольку в CSS могут быть загруженные изображения. Есть ли способ сделать это на Java?

Мой вопрос похож на этот вопрос , но я хочу написать это на Java.

Darshan Mehta · Answer 1 · 26 марта 2019

Вы можете использовать библиотеку Jsoup для извлечения всех ссылок с веб-страницы, например:

Document document = Jsoup.connect("http://google.com").get();
Elements links = document.select("a[href]");
for(Element link : links) {
    System.out.println(link.attr("href"));
}

Вот документация.

Извлечь список URL-адресов, полученных во время рендеринга HTML-страницы в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечь список URL-адресов, полученных во время рендеринга HTML-страницы в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов