Прежде всего, я полагаю, что лучше выяснить, что нужно странице, которую предоставляет JS, и подделать это - вам будет легче почистить страницу, если браузер не задействован.
Если это просто Javascript, создающий XMLHttpRequest, вы можете найти страницу, с которой Javascript извлекает данные iframe
и подключается непосредственно к этому.
Но, несмотря на это, вам может понадобитьсябиблиотека, выполняющая Javascript (если обратная инженерия слишком сложна или использует токены вызова).Веб-рендеринг, такой как Gecko или WebKit, может подойти.
Внимательно посмотрите на Selenium , если вы настаиваете на использовании настоящего веб-браузера или не можете заставить работать программные методы.
Как только вы получили содержимое страницы любым способом, вам потребуется HTML-анализатор (например, sgmllib
или [почти] xml.dom
).Я предлагаю библиотеку DOM.Проанализируйте DOM и извлеките содержимое из соответствующего узла в результирующем дереве.