Webscraping с использованием DOM обновляется с использованием Javascript / Ajax - PullRequest
2 голосов
/ 09 марта 2011

Я хочу собрать данные для образовательного использования с веб-сайта.В основном на основе статистики веб-разработки.В любом случае, сайт, с которого я собираю данные, использует Javascript / Ajax для обновления номеров на своем сайте.Мне интересно услышать некоторые идеи, которые есть у других при сборе данных этой формы.Если я беру источник, данные изначально не содержатся.Я посмотрел на XQuery, который может быть полезен, если я смогу получить обновленное дерево DOM, но не раньше.Я вижу, как дерево обновляется Firebug в Firefox, но каков простой способ получить код оттуда или из других источников?Спасибо за любое направление.

1 Ответ

1 голос
/ 09 марта 2011

В зависимости от сложности веб-сайта, вы можете обойтись без необходимости использовать JavaScript.Посмотрите на запросы ajax, которые отображаются в Firebug.Если они предсказуемы, как, например, всегда /getData?item_id=123, то, вероятно, вы можете просто очистить данные с помощью языка сценариев на ваш выбор.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...