Question

Как загрузить веб-страницу с помощью пользовательского агента, отличного от используемого по умолчанию на urllib2.urlopen?

Jason Coon · Answer 1 · 29 апреля 2009

I ответил a похожий вопрос пару недель назад.

В этом вопросе приведен пример кода, но в основном вы можете сделать что-то вроде этого: (Обратите внимание на заглавную букву User-Agent с RFC 2616 , раздел 14.43.)

opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0')]
response = opener.open('http://www.stackoverflow.com')

Paolo · Answer 2 · 04 марта 2011

headers = { 'User-Agent' : 'Mozilla/5.0' }
req = urllib2.Request('www.example.com', None, headers)
html = urllib2.urlopen(req).read()

Или немного короче:

req = urllib2.Request('www.example.com', headers={ 'User-Agent': 'Mozilla/5.0' })
html = urllib2.urlopen(req).read()

Paolo Bergantino · Answer 3 · 29 апреля 2009

Настройка User-Agent от всех любимых Dive Into Python .

Короткая история: Вы можете использовать Request.add_header , чтобы сделать это.

Вы также можете передать заголовки как словарь при создании самого запроса, как примечание к документации :

заголовки должен быть словарем, и он будет обрабатываться так, как если бы add_header() вызывался с каждым ключом и значением в качестве аргументов. Это часто используется для «подмены» заголовка User-Agent, который используется браузером для идентификации себя - некоторые HTTP-серверы разрешают запросы, поступающие только из обычных браузеров, в отличие от сценариев. Например, Mozilla Firefox может идентифицировать себя как "Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11", тогда как строка пользовательского агента по умолчанию urllib2 равна "Python-urllib/2.6" (в Python 2.6).

Jay Dave · Answer 4 · 06 мая 2012

Для python 3 urllib разделен на 3 модуля ...

import urllib.request
req = urllib.request.Request(url="http://localhost/", headers={'User-Agent':' Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0'})
handler = urllib.request.urlopen(req)

fijiaaron · Answer 5 · 25 января 2012

Все это должно работать теоретически, но (по крайней мере с Python 2.7.2 для Windows) каждый раз, когда вы отправляете пользовательский заголовок User-agent, urllib2 не отправляет этот заголовок. Если вы не пытаетесь отправить заголовок User-agent, он отправляет Python / urllib2

по умолчанию

Кажется, что ни один из этих методов не работает для добавления User-agent, но они работают для других заголовков:

opener = urllib2.build_opener(proxy)
opener.addheaders = {'User-agent':'Custom user agent'}
urllib2.install_opener(opener)

request = urllib2.Request(url, headers={'User-agent':'Custom user agent'})

request.headers['User-agent'] = 'Custom user agent'

request.add_header('User-agent', 'Custom user agent')

Pedro Lobito · Answer 6 · 20 марта 2015

Для urllib вы можете использовать:

from urllib import FancyURLopener

class MyOpener(FancyURLopener, object):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'

myopener = MyOpener()
myopener.retrieve('https://www.google.com/search?q=test', 'useragent.html')

OH2GBA · Answer 7 · 14 января 2013

Другое решение в urllib2 и Python 2.7:

req = urllib2.Request('http://www.example.com/')
req.add_unredirected_header('User-Agent', 'Custom User-Agent')
urllib2.urlopen(req)

twitu · Answer 8 · 07 августа 2017

есть два свойства urllib.URLopener(), а именно:
addheaders = [('User-Agent', 'Python-urllib/1.17'), ('Accept', '*/*')] и
version = 'Python-urllib/1.17'.
Чтобы обмануть веб-сайт, вам нужно изменить оба эти значения на принятого User-Agent. например,
Браузер Chrome: 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.149 Safari/537.36'
Бот Google: 'Googlebot/2.1'
как это

import urllib
page_extractor=urllib.URLopener()  
page_extractor.addheaders = [('User-Agent', 'Googlebot/2.1'), ('Accept', '*/*')]  
page_extractor.version = 'Googlebot/2.1'
page_extractor.retrieve(<url>, <file_path>)

изменение только одного свойства не работает, поскольку веб-сайт помечает его как подозрительный запрос.

akash karothiya · Answer 9 · 29 июля 2015

Попробуйте это:

html_source_code = requests.get("http://www.example.com/",
                   headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.107 Safari/537.36',
                            'Upgrade-Insecure-Requests': '1',
                            'x-runtime': '148ms'}, 
                   allow_redirects=True).content

Изменение пользовательского агента на urllib2.urlopen

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Изменение пользовательского агента на urllib2.urlopen

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы