Я новичок в Python, и моя текущая задача - написать веб-сканер, который ищет PDF-файлы на определенных веб-страницах и загружает их.Вот мой текущий подход (только для 1 образца URL):
import mechanize
import urllib
import sys
mech = mechanize.Browser()
mech.set_handle_robots(False)
url = "http://www.xyz.com"
try:
mech.open(url, timeout = 30.0)
except HTTPError, e:
sys.exit("%d: %s" % (e.code, e.msg))
links = mech.links()
for l in links:
#Some are relative links
path = str(l.base_url[:-1])+str(l.url)
if path.find(".pdf") > 0:
urllib.urlretrieve(path)
Программа работает без каких-либо ошибок, но я не вижу нигде сохраненного файла PDF.Я могу получить доступ к PDF и сохранить его через мой браузер.Есть идеи, что происходит?Я использую pydev (на основе eclipse) в качестве среды разработки, если это имеет какое-то значение.
Другой вопрос: если я хочу дать pdf конкретное имя при сохранении, как я могу это сделать?Правильный ли этот подход?Нужно ли создавать файл с именем файла, прежде чем я смогу сохранить PDF?
urllib.urlretrieve(path, filename)
Заранее спасибо.