выскабливание селеном - PullRequest
       10

выскабливание селеном

0 голосов
/ 03 августа 2010

Я бы хотел удалить некоторые динамические данные с сайта.

На сайте есть несколько ссылок вверху с пометкой «1», «2», «3» и «следующий». Если нажата ссылка, помеченная числом, она динамически загружает некоторые данные в содержимое div. Если нажать «Далее», она перейдет на страницу с метками «4», «5», «6», «далее» и отобразятся данные для страницы 4.

Я хочу очистить данные из содержимого div для всех нажатых ссылок (я не знаю, сколько их, только 3 показывает за раз и «далее»).

Данные в элементе содержимого равномерно распределены (только текстовые изменения) на нескольких страницах.

Я пытался перехватить ajax-запросы, думая, что я мог бы получить необработанный запрос один раз и просто изменить его, как параметр записи "pagenum" или что-то, чтобы загрузить его на новой странице, но оказывается, что они делают некоторые интересные вещи в asp есть очень длинные шестнадцатеричные строковые параметры, которые меняются при каждом запросе. Я полагаю, что я мог бы в конечном итоге заставить это работать, но это было бы невероятно грязно и было бы бесполезно, если бы поменялась самая маленькая вещь.

Я думаю, что я мог бы использовать что-то вроде селена, чтобы нажимать на гиперссылки и загружать страницы для меня, отправляя информацию обратно в div контента. Проблема в том, что я не знаю, сколько раз мне нужно нажать кнопку «Далее», поэтому я не могу написать сценарий, нажимая ее X раз. Это то, что селен может справиться? Если да, можете ли вы указать мне на учебник, в котором говорится об использовании селена для чистки, как это ... потому что большинство уроков, которые я видел, фокусируются на использовании его для тестирования (которое, как я знаю, является его предполагаемой целью).

Ответы [ 2 ]

0 голосов
/ 13 сентября 2011

На самом деле нет причин проверять экран, когда есть esearch apis webservice для получения данных.

0 голосов
/ 03 августа 2010

Я знаю, что веб-скребок IRobotSoft может сделать это легко. Смотрите их демонстрацию здесь: http://www.irobotsoft.com/help/, которая очищает опубликованные данные.

...