Автоматическое сохранение веб-страниц, требующих входа в систему / HTTPS - PullRequest
0 голосов
/ 26 января 2011

Я пытаюсь автоматизировать некоторые данные с веб-сайта.Однако из-за того, что пользователь должен пройти через экран входа в систему, cronjob wget не будет работать, и поскольку мне нужно сделать HTTPS-запрос, простой Perl-скрипт тоже не будет работать.Я пытался посмотреть на дополнение DejaClick для Firefox, чтобы просто воспроизвести серию событий браузера (вход на веб-сайт, переход к месту, где находятся интересные данные, загрузка страницы и т. Д.), Но разработчики этого дополнения по какой-то причинене включать сохранение страниц как функцию.

Есть ли какой-нибудь быстрый способ выполнить то, что я пытаюсь сделать здесь?

Ответы [ 2 ]

0 голосов
/ 27 января 2011

Вы можете записать свое действие с помощью веб-скребка IRobotSoft.См. Демонстрацию здесь: http://irobotsoft.com/help/

Затем используйте функцию saveFile (имя файла, TargetPage) для сохранения целевой страницы.

0 голосов
/ 26 января 2011

Некоторое время назад я использовал mechanize wwwsearch.sourceforge.net/mechanize и нашел его очень полезным.Он поддерживает urllib2, поэтому он также должен работать с HTTPS-запросами, как я сейчас читаю.Так что мой комментарий выше может быть ошибочным.

...