Question

У меня есть экземпляр браузера, который открыл страницу. Я хотел бы скачать и сохранить все ссылки (это PDF-файлы). Кто-нибудь знает, как это сделать?

Thx

cetver · Answer 1 · 04 октября 2011

import urllib, urllib2,cookielib, re
#http://www.crummy.com/software/BeautifulSoup/ - required
from BeautifulSoup import BeautifulSoup

HOST = 'https://www.adobe.com/'

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

req = opener.open( HOST + 'pdf' )
responce = req.read()

soup = BeautifulSoup( responce )
pdfs = soup.findAll(name = 'a', attrs = { 'href': re.compile('\.pdf') })
for pdf in pdfs:
    if 'https://' not in pdf['href']:
        url = HOST + pdf['href']
    else:
        url = pdf['href']
    try:
        #http://docs.python.org/library/urllib.html#urllib.urlretrieve
        urllib.urlretrieve(url)
    except Exception, e:
        print 'cannot obtain url %s' % ( url, )
        print 'from href %s' % ( pdf['href'], )
        print e
    else:
        print 'downloaded file'
        print url

David · Answer 2 · 04 октября 2011

Возможно, это не тот ответ, который вы ищете, но я использовал вместе lxml и библиотеки запросов для автоматической выборочной привязки:

Соответствующие примеры lxml http://lxml.de/lxmlhtml.html#examples (заменить urllib запросами)

И домашняя страница библиотеки запросов http://docs.python -requests.org / ru / latest / index.html

Это не так компактно, как механизация, но предлагает больше контроля.

скачать файл с механизировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

скачать файл с механизировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы