Оболочка Scrapy для конкретной веб-страницы - PullRequest
0 голосов
/ 11 мая 2018

Я хочу запустить Scrapy Shell для https://www.trekearth.com после

scrapy shell https://www.trekearth.com

Я получаю

2018-05-11 16:02:04 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying 
<GET https://www.trekearth.com> (failed 1 times): 524 Unknown Status
2018-05-11 16:02:05 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying 
<GET https://www.trekearth.com> (failed 2 times): 502 Bad Gateway
2018-05-11 16:03:45 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up 
retrying <GET https://www.trekearth.com> (failed 3 times): 524 Unknown Status

В чем причина?Любой другой веб-сайт, который я проверял, не дает сопоставимых результатов.

1 Ответ

0 голосов
/ 11 мая 2018

Это какой-то фильтр по пользовательскому агенту:

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" https://www.trekearth.com
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...