Не думаю, что это проблема REDIRECT_MAX_TIMES
. Я думаю, что это просто проблема перенаправления.
Вы должны выяснить, почему веб-страница перенаправляет вас.
Почему? Возможности:
- Глядя на ваши
USER_AGENT
(я думаю, что это наиболее вероятный)
- Глядя на ваши куки.
- Он выполняет некоторые действия, используя Javascript, который явно «отключен» в scrapy.
- Или их комбинация.
UPDATE:
Я сделал тестового паука для этого сайта, и похоже, что это не простой сайт. Журнал Firefox показывает это:
[10:21:45.707] GET https://www.mileageplusshopping.com/shopping/b____alpha.htm [HTTP/1.1 302 Found 2128ms]
[10:21:47.856] GET https://www.united.com/web/en-US/apps/sso/LoginBridge.aspx?target=/shopping/b____alpha.htm&redirect=sec&targetURLKey=cartua.bridge.url&remove=false [HTTP/1.1 302 Moved Temporarily 517ms]
[10:21:48.375] GET https://x.www.mileageplusshopping.com/shopping/b____alpha.htm [HTTP/1.1 302 Found 1664ms]
[10:21:50.042] GET https://www.mileageplusshopping.com/shopping/b____alpha.htm [HTTP/1.1 200 OK 3818ms]
[10:21:53.230] GET https://a248.e.akamai.net/f/248/35975/5d/i.mallnetworks.com/images/css/united/mn_brand_united_noncardholder.css [HTTP/1.0 200 OK 446ms]
Вывод, который у меня есть, заключается в том, что браузер также перенаправлен, перенаправление выполнено нормально. Нужно продолжать исследования (я не такой эксперт).
ДРУГОЕ ОБНОВЛЕНИЕ:
На самом деле паук здесь работает нормально:
class TestSpider(BaseSpider):
name = "mileageplusshopping_com"
allowed_domains = ["mileageplusshopping.com"]
start_urls = [
'https://www.mileageplusshopping.com/shopping/b____alpha.htm'
]
def parse(self, response):
print 'here'
Продолжительность:
vic@wic:~/projects/test$ scrapy crawl mileageplusshopping_com
2012-04-03 10:30:40+0300 [scrapy] INFO: Scrapy 0.14.2 started (bot: test)
2012-04-03 10:30:40+0300 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, MemoryUsage, SpiderState
2012-04-03 10:30:40+0300 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats
2012-04-03 10:30:40+0300 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2012-04-03 10:30:40+0300 [scrapy] DEBUG: Enabled item pipelines:
2012-04-03 10:30:40+0300 [mileageplusshopping_com] INFO: Spider opened
2012-04-03 10:30:40+0300 [mileageplusshopping_com] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2012-04-03 10:30:40+0300 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023
2012-04-03 10:30:40+0300 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080
2012-04-03 10:30:42+0300 [mileageplusshopping_com] DEBUG: Redirecting (302) to <GET https://www.united.com/web/en-US/apps/sso/LoginBridge.aspx?target=/shopping/b____alpha.htm&redirect=sec&targetURLKey=cartua.bridge.url&remove=false> from <GET https://www.mileageplusshopping.com/shopping/b____alpha.htm>
2012-04-03 10:30:43+0300 [mileageplusshopping_com] DEBUG: Redirecting (302) to <GET https://x.www.mileageplusshopping.com/shopping/b____alpha.htm> from <GET https://www.united.com/web/en-US/apps/sso/LoginBridge.aspx?target=/shopping/b____alpha.htm&redirect=sec&targetURLKey=cartua.bridge.url&remove=false>
2012-04-03 10:30:44+0300 [mileageplusshopping_com] DEBUG: Redirecting (302) to <GET https://www.mileageplusshopping.com/shopping/b____alpha.htm> from <GET https://x.www.mileageplusshopping.com/shopping/b____alpha.htm>
2012-04-03 10:30:47+0300 [mileageplusshopping_com] DEBUG: Crawled (200) <GET https://www.mileageplusshopping.com/shopping/b____alpha.htm> (referer: None)
here
2012-04-03 10:30:47+0300 [mileageplusshopping_com] INFO: Closing spider (finished)
2012-04-03 10:30:47+0300 [mileageplusshopping_com] INFO: Dumping spider stats:
{'downloader/request_bytes': 1140,
'downloader/request_count': 4,
'downloader/request_method_count/GET': 4,
'downloader/response_bytes': 68882,
'downloader/response_count': 4,
'downloader/response_status_count/200': 1,
'downloader/response_status_count/302': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2012, 4, 3, 7, 30, 47, 879869),
'scheduler/memory_enqueued': 4,
'start_time': datetime.datetime(2012, 4, 3, 7, 30, 40, 250275)}
2012-04-03 10:30:47+0300 [mileageplusshopping_com] INFO: Spider closed (finished)
2012-04-03 10:30:47+0300 [scrapy] INFO: Dumping global stats:
{'memusage/max': 88838144, 'memusage/startup': 88838144}
vic@wic:~/projects/test$