Извлечение библиотек JS из содержимого HTML с использованием Java / Jsoup - PullRequest
0 голосов
/ 17 февраля 2019

Страница : https://en.wikipedia.org/wiki/Punjab,_India

Источник HTML Для справки (используйте Chrome) : view-source:https://en.wikipedia.org/wiki/Punjab,_India

Использование указанной выше страницы URL-адрес, который я хочуизвлечь все библиотеки javascript, используемые в HTML.

Существует ли простой способ использования Jsoup / Java или любой другой библиотеки Java, которая может использоваться.

Ответы [ 2 ]

0 голосов
/ 20 февраля 2019

Вы можете попробовать это наивное решение:

          List<String> sources = Jsoup.parse(html)
            .select("script")
            .stream()
            .map(element -> element.attr("src"))
            .filter(src -> !StringUtil.isBlank(src))
            .collect(Collectors.toList());

Это может быть достаточно для вас.Если нет, пожалуйста, укажите, какой выход вы ожидаете.

0 голосов
/ 17 февраля 2019

Мне кажется, что вы хотели бы извлечь некоторые данные из HTML-страницы.Я рекомендую взглянуть на эту структуру https://github.com/GoogleChrome/puppeteer/blob/v1.10.0/docs/api.md#, но вам придется пройти через DOM для извлечения информации.Другая структура, которая может помочь с этим, является https://jquery.com/.

...