Очистка данных с динамического сайта - PullRequest
1 голос
/ 30 июля 2010

Фон: на странице есть таблица с данными.Существует несколько гиперссылок, при нажатии на которые данные в таблице заменяются новыми данными.Кроме того, страница является страницей aspx.

Цель: Я хочу очистить данные в таблице для всех нажатых гиперссылок.

Я посмотрел на то, что происходит с помощью firebug, и при нажатии на гиперссылку генерируется сообщение httpвернуться на сервер через ajax.Проблема в том, что отправляется много действительно мусорных параметров.Я предполагаю, что это потому, что asp делает некоторые вещи типа сессии.Я предполагаю, что даже если я скопировал точные параметры, отправленные моим браузером, большинство из них в любом случае не будут действительны позже.

Как люди обычно пишут http-скрипты, которые занимаются такими вещами?

Ответы [ 4 ]

0 голосов
/ 29 августа 2010

Вот пример Python , который использует webkit для анализа JavaScript на веб-странице и предоставления вам окончательного HTML

0 голосов
/ 30 июля 2010

Большую часть времени я использую WatiN для простых соскобов. Лишь изредка я пишу анализатор / скребки клиентов.

0 голосов
/ 03 августа 2010

Я буду использовать irobotsoft web scraper для этого. Это должно быть очень просто.

0 голосов
/ 30 июля 2010

Надежный метод, который я использую, состоит в том, чтобы просто интерпретировать JS со страницы в моем скрипте очистки и позволить ему заполнить все эти параметры самостоятельно.Самый быстрый способ сделать это - использовать готовый движок, такой как WebKit, и построить на нем свой скребок.

Более сложный, но более гибкий способ - использовать Google V8 или движки Mozilla Spidermonkey JS и предоставитьсобственный контекст DOM для них.

...