Как очистить HTML сгенерированный JavaScript с помощью Python? - PullRequest
5 голосов
/ 25 апреля 2010

Я хочу очистить HTML, сгенерированный javascript, так же, как вы можете видеть в Firebug.

UPDATE : Я нашел эту статью: http://blog.motane.lu/2009/07/07/downloading-a-pages-content-with-python-and-webkit/, которая использует PyQt для решения проблемы, и она хорошо работает для меня.

НО возникает другая проблема: сначала мне нужно войти на сайт, но я не знаю, как смоделировать вход в PyQt ....: (

Ответы [ 3 ]

5 голосов
/ 25 апреля 2010

Взгляните на эту статью , в которой описывается использование Ветряная мельница для очистки страницы после выполнения Javascript браузером.

В этой статье будет показано, как извлечь нужную информацию, используя те же три шага, когда веб-страница не написана напрямую с использованием HTML, а автоматически сгенерирована с использованием JavaScript для обновления дерева DOM.

У них есть несколько примеров, которые, я уверен, вы можете легко адаптировать.

0 голосов
/ 25 апреля 2010

Вы можете использовать python spidermonkey, который является оболочкой python для движка Firefox: http://code.google.com/p/python-spidermonkey/

Но проект кажется немного незрелым.

0 голосов
/ 25 апреля 2010

Чтобы быть точным с терминологией, Javascript не генерирует HTML. Javascript генерирует и манипулирует DOM в вашем браузере. Firebug показывает вам HTML-представление этого DOM, чтобы оно было читабельным. HTML на самом деле не существует. :)

Я не думаю, что существует простое решение. Вы можете посмотреть этот пост в блоге и комментарии , в которых есть несколько указателей.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...