Python - urllib2 & cookielib - PullRequest
       37

Python - urllib2 & cookielib

22 голосов
/ 03 января 2011

Я пытаюсь открыть следующий веб-сайт и получить исходный файл cookie и использовать его для второго открытия URL-адреса, НО, если вы запустите следующий код, он выдаст 2 разных файла cookie.Как использовать исходный файл cookie для второго открытия URL-адреса?

import cookielib, urllib2

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

home = opener.open('https://www.idcourts.us/repository/start.do')
print cj

search = opener.open('https://www.idcourts.us/repository/partySearch.do')
print cj

В выходных данных каждый раз отображаются 2 различных файла cookie, как вы можете видеть:

<cookielib.CookieJar[<Cookie JSESSIONID=0DEEE8331DE7D0DFDC22E860E065085F for www.idcourts.us/repository>]>
<cookielib.CookieJar[<Cookie JSESSIONID=E01C2BE8323632A32DA467F8A9B22A51 for www.idcourts.us/repository>]>

Ответы [ 3 ]

21 голосов
/ 04 января 2011

Это не проблема с urllib. Этот сайт делает некоторые интересные вещи. Вам нужно запросить пару таблиц стилей для этого, чтобы проверить ваш идентификатор сессии:

import cookielib, urllib2

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# default User-Agent ('Python-urllib/2.6') will *not* work
opener.addheaders = [
    ('User-Agent', 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2.11) Gecko/20101012 Firefox/3.6.11'),
    ]


stylesheets = [
    'https://www.idcourts.us/repository/css/id_style.css',
    'https://www.idcourts.us/repository/css/id_print.css',
]

home = opener.open('https://www.idcourts.us/repository/start.do')
print cj
sessid = cj._cookies['www.idcourts.us']['/repository']['JSESSIONID'].value
# Note the +=
opener.addheaders += [
    ('Referer', 'https://www.idcourts.us/repository/start.do'),
    ]
for st in stylesheets:
    # da trick
    opener.open(st+';jsessionid='+sessid)
search = opener.open('https://www.idcourts.us/repository/partySearch.do')
print cj
# perhaps need to keep updating the referer...
7 голосов
/ 03 января 2011

Не фактический ответ (но слишком длинный для комментария); возможно, пригодится всем, кто пытается ответить на этот вопрос.

Несмотря на мои лучшие попытки, я не могу понять это.

Глядя в Firebug, файл cookie, похоже, остается тем же (работает правильно) для Firefox.

Я добавил urllib2.HTTPSHandler(debuglevel=1) для отладки заголовков, которые отправляет Python, и он, похоже, повторно отправляет cookie.

Я также добавил все заголовки запросов Firefox, чтобы посмотреть, поможет ли это (не помогло):

opener.addheaders = [
    ('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-GB; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13'),
    ..
]

Мой тестовый код:

import cookielib, urllib2

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj), urllib2.HTTPSHandler(debuglevel=1))
opener.addheaders = [
    ('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-GB; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13'),
    ('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'),
    ('Accept-Language', 'en-gb,en;q=0.5'),
    ('Accept-Encoding', 'gzip,deflate'),
    ('Accept-Charset', 'ISO-8859-1,utf-8;q=0.7,*;q=0.7'),
    ('Keep-Alive', '115'),
    ('Connection', 'keep-alive'),
    ('Cache-Control', 'max-age=0'),
    ('Referer', 'https://www.idcourts.us/repository/partySearch.do'),
]

home = opener.open('https://www.idcourts.us/repository/start.do')
print cj

search = opener.open('https://www.idcourts.us/repository/partySearch.do')
print cj

Я чувствую, что упускаю что-то очевидное.

0 голосов
/ 03 января 2011

Я думаю, проблема в том, что сервер устанавливает новый cookie для каждого запроса.

...