есть два свойства urllib.URLopener()
, а именно:
addheaders = [('User-Agent', 'Python-urllib/1.17'), ('Accept', '*/*')]
и
version = 'Python-urllib/1.17'
.
Чтобы обмануть веб-сайт, вам нужно изменить оба эти значения на принятого User-Agent. например,
Браузер Chrome: 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.149 Safari/537.36'
Бот Google: 'Googlebot/2.1'
как это
import urllib
page_extractor=urllib.URLopener()
page_extractor.addheaders = [('User-Agent', 'Googlebot/2.1'), ('Accept', '*/*')]
page_extractor.version = 'Googlebot/2.1'
page_extractor.retrieve(<url>, <file_path>)
изменение только одного свойства не работает, поскольку веб-сайт помечает его как подозрительный запрос.