Я знаю, что такого рода вопрос уже задавался здесь раньше, но в результате поиска я не нашел решения:
Мой вопрос таков: какие библиотеки Java лучше всего «полностью загрузить любую веб-страницу и отобразить встроенный JavaScript-код (-ы), а затем получить программный доступ к визуализированной веб-странице (то есть к DOM-дереву!) И получить дерево DOM как «HTML-источник».
(Что-то аналогично тому, что делает firebug в конце, он рендерит страницу, и я получаю доступ к полностью визуализированному дереву DOM, как выглядит страница в браузере! Исходный код JavaScript. Это не то, что я хочу. Мне нужен доступ к отображаемой странице ...)
(Под рендерингом я имею в виду только рендеринг дерева DOM , а не визуальный рендеринг ...)
Это не обязательно должна быть одна библиотека, вполне допустимо иметь несколько библиотек, которые могут выполнить это вместе (одну загрузку, одну визуализацию ...), но из-за динамической природы JavaScript, скорее всего, библиотека JavaScript также будет должен иметь какой-то загрузчик для полной визуализации любого асинхронного JS ...
Справочная информация:
В «старые добрые времена» HttpClient (Apache Library) был всем необходимым для создания собственного очень простого сканера. (Многие злоумышленники, такие как Nutch или Heretrix, все еще строятся вокруг этого базового принципа, в основном фокусируясь на анализе стандартного HTML, поэтому я не могу учиться у них)
Моя проблема в том, что мне нужно сканировать некоторые веб-сайты, которые сильно зависят от JavaScript, и что я не могу выполнить синтаксический анализ с HttpClient, поскольку мне обязательно нужно выполнить JavaScripts до ...
Спасибо большое !!
Тим