BeautifulSoup получить данные innerhtml - PullRequest
2 голосов
/ 08 июля 2010

Я пытаюсь прочитать данные с веб-сайта.Я вижу нужное мне значение, но оно не отображается в загруженном HTML-коде (используется urllib2).Значение создается некоторым файлом js и встраивается в веб-страницу как innerhtml для этого идентификатора.PS: Как это можно извлечь?Необработанный исходный код не может отображать js в отличие от браузеров!

Ответы [ 2 ]

4 голосов
/ 08 июля 2010

Еще один способ получения данных - оставить браузер, выполняя всю работу с использованием Selenium и читая визуализированный html. Немного медленно, но, безусловно, эффективно.

Здесь вы можете найти руководство по началу работы с Selenium с Python: http://jimmyg.org/blog/2009/getting-started-with-selenium-and-python.html

1 голос
/ 08 июля 2010

У вас есть два варианта: браузер должен сохранить DOM (включая все изменения, сделанные скриптами) или использовать механизм JavaScript для выполнения встроенных скриптов.

Для последнего маршрута попробуйте механизм на основе Javaкак Rhino и эмулировать браузер с env.js .

...