Python получает данные с защищенного сайта - PullRequest
2 голосов
/ 10 марта 2012

Я хотел бы знать, есть ли способ получить информацию с моего банковского веб-сайта с помощью Python, я хотел бы получить историю моей карты и отобразить ее, а также, возможно, сохранять ее в текстовом документе каждый месяц.

Я нашел url ext для входа в систему и получения информации с веб-сайта, который работает из браузера, но я использовал liburl2 для «открытия» веб-страниц из Python, и у меня возникло ощущение, что он не работает из-за какого-либо файла cookie или сеансавещи.

Я могу получить любую информацию с веб-сайта, для которого не требуется вход с помощью urllib2, а затем сохранить фактический HTML-код и просмотреть его позже, но я не могу зайти на сайт своего банка,

Любая помощь будет оценена

1 Ответ

3 голосов
/ 10 марта 2012

Это часть Web-Scarping :

  • Web-scraping - стандартная задача, которая может удовлетворить различные потребности.
  • Очистка данных отsecure-website означает https
  • Обработка https не является проблемой с mechanize и BeautifulSoup
  • Хотя urllib2 с HTTPCookieJar также отлично работает
  • Если управление куки-файлами является проблемой, то я бы порекомендовал mechanize

Учитывая ситуацию с вашим BANK-сайтом:

  1. Я бы порекомендовал не игратьс вашей учетной записью.
  2. Если необходимо, это не так просто, как на любом обычном защищенном / незащищенном сайте.
  3. Эти сайты предназначены для поддержки таких сценариев.

Проблемы, с которыми вы столкнетесь при этом:

  1. На сайтах BANK, несомненно, будет установлена ​​капча, которую почти невозможно обойти сценарием, если вы не работаете в области ракетостроения и усилий..
  2. Другая проблема, с которой вы непременно столкнетесь, - это JavaScript, стандартные скриптовые решениясфокусирован на управлении файлами cookie, парсингом HTML и т. д. Для обработки javascript по ссылкам вам нужно будет обработать js в вашем скрипте python.Это снова требует больших усилий.
  3. Затем AJAX, который снова приходит из javascript, извлекает данные с сервера после загрузки страницы.

Итак, вам потребуется принятьмного усилий для выполнения этой задачи.

Кроме того, если вы попытаетесь это сделать, вы рискуете заблокировать доступ к своей учетной записи, так как банковские сайты быстро блокируют доступ к учетной записи при 3-4 неудачных попытках входа в системуили капча и т. д.

Итак, подумайте, прежде чем делать.

...