scrapy shell ""https://www.winemag.com/wine-ratings/2/" response
однако я получаю
2019-02-19 14:16:35 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023 2019-02-19 14:16:35 [scrapy.core.engine] INFO: Spider opened 2019-02-19 14:16:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.winemag.com/robots.txt> (referer: None) 2019-02-19 14:16:35 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET http://www.winemag.com/wine-ratings> from <GET https://www.winemag.com/wine-ratings/2/> 2019-02-19 14:16:35 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.winemag.com/wine-ratings> from <GET http://www.winemag.com/wine-ratings> 2019-02-19 14:16:35 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.winemag.com/wine-ratings/> from <GET https://www.winemag.com/wine-ratings> 2019-02-19 14:16:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.winemag.com/wine-ratings/> (referer: None)
<200 https://www.winemag.com/wine-ratings/>
Я не могу понять, почему он не получает полную ссылку, может кто-тодайте мне предложение, пожалуйста.
Я нашел ответ.Мне пришлось указать USER_AGENT в файле настроек.
Кажется, winemag перенаправляет сканеры на свою домашнюю страницу:
winemag
⇾ curl -I 'https://www.winemag.com/wine-ratings/2/' HTTP/2 301 [...] location: http://www.winemag.com/wine-ratings [...]
, поэтому похоже, что это будет ожидаемое поведение от scrapy, который следует за перенаправлениями, возвращаемыми ему веб-сайтом, который вы 'повторный доступ?
scrapy