Python Mechanize не может избежать перенаправления при публикации - PullRequest
0 голосов
/ 03 мая 2010

Я пытаюсь сканировать сайт с помощью механизации. Сайт предоставляет результаты поиска на разных страницах. При публикации для получения следующего набора результатов что-то не так, и сервер перенаправляет меня на первую страницу, запрашивая механизм обновления Cookie SearchSession.

Я отлаживал запросы с помощью Firefox, и они выглядят совершенно одинаково, и я не могу найти проблему. Любое предложение? Ниже заявки:

----------- ПЕРВАЯ ПРАВИЛЬНАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ, ИСПОЛЬЗУЯ ТАМПЕР В FIREFOX ------------------------- POST XXX / JobSearch / Results.aspx? Keywords = Python & LTxt = Лондон% 2c + Юг + Восток & Радиус = 0 & LIds2 = ZV & clid = 1621 & cltypeid = 2 & clName = Лондон Загрузить флаги [LOAD_DOCUMENT_URI LOAD_INITIAL_DOCUMENT_URI] Тип содержимого [текст] / мин. Заголовки запроса: Хост [www.cwjobs.co.uk] User-Agent [Mozilla / 5.0 (X11; U; Linux i686; en-US; rv: 1.9.1.9) Gecko / 20100401 Ubuntu / 9.10 (karmic) Firefox / 3.5.9] Принимать [текст / HTML, приложение / XHTML + XML, приложение / XML; д = 0,9, / ; д = 0,8] Accept-Language [ан-нас, еп, д = 0,5] Accept-Encoding [GZIP, выкачать] Accept-Charset [ISO-8859-1, UTF-8; Q = 0,7, *; д = 0,7] Keep-Alive [300] Соединение [поддержания активности] Referer [XXX / JobSearch / Results.aspx? Ключевые слова = Python & LTxt = Лондон% 2c + South East + и Radius = 0 & LIds2 = ZV & CLID = 1621 & cltypeid = 2 & clName = Лондон] Cookie [ЭКОС = 774803468-0; AnonymousUser = MemberId = acc079dd-66b6-4081-9b07-60d6955ee8bf & IsAnonymous = True; PJBIPPOPUP =; WT_FPC = Id = 86.181.183.106-2262469600.30073025: LV = 1272812851736: сс = 1272812789362; SearchSession = SessionGuid = 71de63de-3bd0-4787-895d-b6b9e7c93801 & LogSource = NAT] Опубликовать данные: __EVENTTARGET [srpPager% 24btnForward] __EVENTARGUMENT [] hdnSearchResults [Б% 2CA% 2CC0P5x% 2COou-% 2CB4S-% 2CBuC-% 2CDzx-% 2CHwn-% 2CKPP-% 2CIVA-% 2CC9D-% 2CH6X-% 2CH7x-% 2CJ0x-% 2CCvX-% 2CCra-% 2COHa-% 2CHhP-% 2CCoj-% 2CBlM-% 2CE9W-% 2CIm8-% 2CBqG-% 2CPFy-% 2CN% 2Fm-% 2Ceaa% 2CCvj-% 2CCtJ-% 2CCr7-% 2CBpu-% 2Cmh% 2CMb6-% 2cj% 2Fk-% 2CHY8-% 2COJ7-% 2CNtF-% 2CEya-% 2CErT-% 2CEo4-% 2CEKU-% 2CDnL-% 2CC5M-% 2CCyB-% 2CBsD-% 2CBrc-% 2CBpU-% 2Col% 2C30% 2CC1% 2Cd4N% 2COo8-% 2COi0-% 2CLz% 2F-% 2CLxP-% 2CFyp-% 2CFVR-% 2CEHL-% 2CPrP-% 2CLmE-% 2CK3H-% 2CKXJ-% 2CFyn% 2CIcq-% 2CIco-% 2CIK4-% 2CIIg-% 2CH2k-% 2CH0N -% 2CHwp-% 2CHvF-% 2CFij-% 2CFhl-% 2CCwj-% 2CCb5-% 2CCQj-% 2CCQh-% 2CB% 2B2-% 2CBc6-% 2ChFo% 2CNLq-% 2CNI% 2F-% 2CFzM-% 2Cdu-% 2CHg2-% 2CBug-% 2CBse-% 2CB9Q-] __VIEWSTATE [% 2FwEPDwUKLTkyMzI2ODA4Ng9kFgYCBA8WBB4EaHJlZgWJAWh0dHA6Ly93d3cuY3dqb2JzLmNvLnVrL0pvYlNlYXJjaC9SU1MuYXNweD9LZXl3b3Jkcz1QeXRob24mTFR4dD1Mb25kb24lMmMrU291dGgrRWFzdCZSYWRpdXM9MCZMSWRzMj1aViZjbGlkPTE2MjEmY2x0eXBlaWQ9MiZjbE5hbWU9TG9uZG9uHgV0aXRsZQUkTGF0ZXN0IFB5dGhvbiBqb2JzIGZyb20gQ1dKb2JzLmNvLnVrZAIGDxYCHgRUZXh0BV48bGluayByZWw9ImNhbm9uaWNhbCIgaHJlZj0iaHR0cDovL3d3dy5jd2pvYnMuY28udWsvSm9iU2Vla2luZy9QeXRob25fTG9uZG9uX2wxNjIxX3QyLmh0bWwiIC8% 2BZAIIEGRkFg4CBw8WAh8CBV9Zb3VyIHNlYXJjaCBvbiA8Yj5LZXl3b3JkczogUHl0aG9uOyBMb2NhdGlvbjogTG9uZG9uLCBTb3V0aCBFYXN0OyA8L2I% 2BIHJldHVybmVkIDxiPjg1PC9iPiBqb2JzLmQCCQ8WAh4HVmlzaWJsZWhkAgsPFgIfAgUoVGhlIG1vc3QgcmVsZXZhbnQgam9icyBhcmUgbGlzdGVkIGZpcnN0LmQCEw8PFgIeC05hdmlnYXRlVXJsBQF% 2BZGQCFQ9kFgYCBQ8PFgYfAgUGUHl0aG9uHgtEZWZhdWx0VGV4dAUMZS5nLiBhbmFseXN0HhNEZWZhdWx0VGV4dENzc0NsYXNzZWRkAgsPDxYGHwIFEkxvbmRvbiwgU291dGggRWFzdB8FBQllLmcuIEJhdGgfBmVkZAIRDxAPFgYeDURhdGFUZXh0RmllbGQFClJhZGl1c05hbWUeDkRhdGFWYWx1ZUZpZWxkBQZSYWRpdXMeC18hRGF0YUJvdW5kZ2QQFREHMCBtaWxlcwcyIG1p bGVzBzUgbWlsZXMIMTAgbWlsZXMIMTUgbWlsZXMIMjAgbWlsZXMIMjUgbWlsZXMIMzAgbWlsZXMIMzUgbWlsZXMINDAgbWlsZXMINDUgbWlsZXMINTAgbWlsZXMINjAgbWlsZXMINzAgbWlsZXMIODAgbWlsZXMIOTAgbWlsZXMJMTAwIG1pbGVzFREBMAEyATUCMTACMTUCMjACMjUCMzACMzUCNDACNDUCNTACNjACNzACODACOTADMTAwFCsDEWdnZ2dnZ2dnZ2dnZ2dnZ2dnZGQCFw9kFgQCAQ9kFgQCBA8QZA8WA2YCAQICFgMQBQhBbGwgam9icwUBMGcQBRlEaXJlY3QgZW1wbG95ZXIgam9icyBvbmx5BQEyZxAFEEFnZW5jeSBqb2JzIG9ubHkFATFnZGQCBg8QZA8WA2YCAQICFgMQBQlSZWxldmFuY2UFATFnEAUERGF0ZQUBMmcQBQZTYWxhcnkFATNnZGQCBQ8PFgYeClBhZ2VOdW1iZXICAh4PTnVtYmVyT2ZSZXN1bHRzAlUeDlJlc3VsdHNQZXJQYWdlAhRkZAIZDxYCHwNoZGQ% 3D] Refinesearch% 24txtKeywords [Python]Refinesearch% 24txtLocation [Лондон% 2C + Южный + Восток] Refinesearch% 24ddlRadius [0] ddlCompanyType [0] ddlSort [1] Заголовки ответа: Cache-Control [закрытыми] Дата [вс, 02 мая 2010 г. 16:09:27 мск] Content-Type [Текст / html; кодировка = UTF-8] Истекает [Сб, 02 мая 2009 16:09:27 GMT] Сервер [Microsoft-IIS / 6.0] X-SiteConHost [Р310] X-Powered-By [ASP.NET] X-Сеть САШ-версия [2.0.50727] Set-Cookie [SearchSession = SessionGuid = 71de63de-3bd0-4787-895d-b6b9e7c93801 & LogSource = NAT; Путь = /] Content-Encoding [GZIP] Vary [Accept-Encoding] Transfer-Encoding [фрагментированное]

-------- СЕЙЧАС, ЧТО Я ОТПРАВЛЯЮ С ПОМОЩЬЮ МЕХАНИЗМА, ДОБАВЛЕНО НЕКОТОРЫЕ ЗАГОЛОВОКИ, И Т.Д. ----------- POST /JobSearch/Results.aspx?Keywords=Python&LTxt=London%2c+South+East&Radius=0&LIds2=ZV&clid=1621&cltypeid=2&clName=London HTTP / 1.1 \ r \ nContent-Length: 2424 \ r \ n Accept-Language: en-us, en; q = 0,5 \ r \ n Принять кодировку: gzip \ r \ n Ведущий: www.cwjobs.co.uk \ r \ n Принять: текст / html, приложение / xhtml + xml, приложение / xml; q = 0,9, / ; q = 0,8 \ r \ n Accept-Charset: ISO-8859-1, utf-8; q = 0,7, *; q = 0,7 \ r \ n Соединение: keep-alive \ r \ n Cookie: AnonymousUser = MemberId = 8fa5ddd7-17ed-425e-b189-82693bfbaa0c & IsAnonymous = True; SearchSession = SessionGuid = 33e4e439-c2d6-423f-900F-574099310d5a & LogSource = НАТ \ г \ п Реферер: XXX / JobSearch / Results.aspx? Ключевые слова = Python & LTxt = Лондон% 2c + Юг + Восток & Радиус = 0 & LIds2 = ZV & clid = 1621 & cltypeid = 2 & clName = London \ r \ n Тип содержимого: application / x-www-form-urlencoded \ r \ n \ r \ n ' «__EVENTTARGET = srpPager% 24btnForward & __EVENTARGUMENT = & hdnSearchResults = BV% 2CA% 2CC0eif% 2CMwc% 2CM6s% 2COou% 2CK09% 2CG4H% 2CEZf% 2CGTu% 2CLrr% 2CGuX% 2CGs9% 2CEz9% 2CL5X% 2CL9U% 2ChU% 2CHHf% 2CMAL% 2CNDi% 2CJrY% 2CGBy% 2CM% 2Bo% 2CdE-% 2CpI% 2CtDI% 2CL5L% 2CL7l% 2CL8z% 2CM% 2fa% 2CPPP% 2CCM0% 2CEpK% 2CHPy% 2Cez% 2C7p% 2CJ2U% 2CJ9b% 2cj% 2F2% 2CKea% 2CLBj% 2CLvi% 2CL2t% 2CM8r% 2CM9S% 2CM % 2fa% 2CPRT% 2CPgi% 2Csg7% 2CF6% 2CI2F% 2CJTd% 2CO-% 2CC0v% 2CC3f% 2CDCq% 2CDxn% 2CERl% 2CUbV% 2CGME% 2CGMG% 2CGd2% 2CGgO% 2CGyK% 2CG0h% 2CG4F% 2CG5p% 2CJGL% 2CJHJ% 2CKhj% 2CL4L% 2CMM1% 2CMYL% 2CMYN% 2CMp4% 2CNL0% 2COrj% 2CvuW% 2CBdE% 2CBfv% 2CI1i% 2CBCh-% 2COLA% 2CHH4% 2CM6O% 2CM8Q% 2CMre & __VIEWSTATE =% 2FwEPDwUKLTkyMzI2ODA4Ng9kFgYCBA8WBB4EaHJlZgWJAWh0dHA6Ly93d3cuY3dqb2JzLmNvLnVrL0pvYlNlYXJjaC9SU1MuYXNweD9LZXl3b3Jkcz1QeXRob24mTFR4dD1Mb25kb24lMmMrU291dGgrRWFzdCZSYWRpdXM9MCZMSWRzMj1aViZjbGlkPTE2MjEmY2x0eXBlaWQ9MiZjbE5hbWU9TG9uZG9uHgV0aXRsZQUkTGF0ZXN0IFB5dGhvbiBqb2JzIGZyb20gQ1dKb2JzLmNvLnVrZAIGDxYCHgRUZXh0BV48bGluayByZWw9ImNhbm9uaWNhbCIgaHJlZj0iaHR0cDovL3d3dy5jd2pvYnMuY28udWsvSm9iU2Vla2luZy9QeXRob25fTG9uZG9uX2wxNjIxX3QyLmh0bWwiIC8% 2BZAIIEGRkFg4CBw8WAh8CBV9Zb3VyIHNlYXJjaCBvbiA8Yj5LZXl3b3JkczogUHl0aG9uOyBMb2NhdGlvbjogTG9uZG9uLCBTb3V0aCBFYXN0OyA8L2I% 2BIHJldHVybmVkIDxiPjg1PC9iPiBqb2JzLmQCCQ8WAh4HVmlzaWJsZWhkAgsPFgIfAgUoVGhlIG1vc3QgcmVsZXZhbnQgam9icyBhcmUgbGlzdGVkIGZpcnN0LmQCEw8PFgIeC05hdmlnYXRlVXJsBQF% 2BZGQCFQ9kFgYCBQ8PFgYfAgUGUHl0aG9uHgtEZWZhdWx0VGV4dAUMZS5nLiBhbmFseXN0HhNEZWZhdWx0VGV4dENzc0NsYXNzZWRkAgsPDxYGHwIFEkxvbmRvbiwgU291dGggRWFzdB8FBQllLmcuIEJhdGgfBmVkZAIRDxAPFgYeDURhdGFUZXh0RmllbGQFClJhZGl1c05hbWUeDkRhdGFWYWx1ZUZpZWxkBQZSYWRpdXMeC18hRGF0YUJvdW5kZ2QQFREHMCBtaWxlcwcyIG1p bGVzBzUgbWlsZXMIMTAgbWlsZXMIMTUgbWlsZXMIMjAgbWlsZXMIMjUgbWlsZXMIMzAgbWlsZXMIMzUgbWlsZXMINDAgbWlsZXMINDUgbWlsZXMINTAgbWlsZXMINjAgbWlsZXMINzAgbWlsZXMIODAgbWlsZXMIOTAgbWlsZXMJMTAwIG1pbGVzFREBMAEyATUCMTACMTUCMjACMjUCMzACMzUCNDACNDUCNTACNjACNzACODACOTADMTAwFCsDEWdnZ2dnZ2dnZ2dnZ2dnZ2dnZGQCFw9kFgQCAQ9kFgQCBA8QZA8WA2YCAQICFgMQBQhBbGwgam9icwUBMGcQBRlEaXJlY3QgZW1wbG95ZXIgam9icyBvbmx5BQEyZxAFEEFnZW5jeSBqb2JzIG9ubHkFATFnZGQCBg8QZA8WA2YCAQICFgMQBQlSZWxldmFuY2UFATFnEAUERGF0ZQUBMmcQBQZTYWxhcnkFATNnZGQCBQ8PFgYeClBhZ2VOdW1iZXICAR4PTnVtYmVyT2ZSZXN1bHRzAlUeDlJlc3VsdHNQZXJQYWdlAhRkZAIZDxYCHwNoZGQ% 3D & Refinesearch% 24txtKeywords = Python & Refinesearch% 24txtLocation = Лондон% 2CSouth + East & Refinesearch% 24ddlRadius = 0 & Refinesearch% 24btnSearch = Поиск & ddlCompanyType = 0 & ddlSort = 1'

1 Ответ

1 голос
/ 03 мая 2010

Cookie-файлы SearchSession совсем другие: рабочий имеет

SearchSession=SessionGuid=71de63de-3bd0-4787-895d-b6b9e7c93801

и нерабочий имеет

SearchSession=SessionGuid=33e4e439-c2d6-423f-900f-574099310d5a

У вас есть какой-нибудь способ самостоятельно проверить, почему второй может быть неприемлемым для сервера? (Это может быть не так, но поскольку сервер жалуется именно на ваш файл cookie SearchSession, похоже, это должна быть первая строка запроса).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...