Скачать загруженные страницы JavaScript - PullRequest
2 голосов
/ 03 февраля 2011

Пример, на который я смотрю: morningstar.com . Большая часть содержимого загружается через эту функцию javascript. Когда я использую wget, я не получаю данные, которые действительно отображаются в браузере (потому что wget не интерпретирует код JavaScript).

Есть ли способ оценить javascript и загрузить полную страницу (с помощью cmdline или кода)?

SRT_stocFund.LoadAComponent("sfcontent", "C", "is", "en-us","USA", "", "USA", null,{showSubTab: false});

Ответы [ 2 ]

3 голосов
/ 03 февраля 2011

Для этой конкретной страницы, может быть, вы могли бы просто wget URL кнопки «Экспорт»? Очевидно, это будет работать только в том случае, если вы пытаетесь использовать фактические данные, отображаемые на сайте (поскольку это все, что находится в выписке).

Вот ссылка непосредственно на файл .csv: http://financials.morningstar.com/ajax/exportKR2CSV.html?t=GOOG&culture=en_us&region=USA&order=asc&r=765325

2 голосов
/ 03 февраля 2011

Установите Firebug для Firefox и узнайте, что происходит на вкладке «Сеть». Это покажет вам все сетевые запросы, которые Firefox отправляет на страницу. Отсюда вы можете скопировать URL-адрес любых запросов Ajax (на вкладке XHR) и посмотреть ответ. Передайте URL-адрес Ajax на wget (если только он не POST, в этом случае его немного сложнее).

...