Проверьте robots.txt вашего сайта. Иногда его не существует.
Если robots.txt позволяет роботам, то вряд ли проблема в этом. Иначе, вы пишете ROBOTSTXT_OBEY = False
в settings.py или в команде scrapy crawl or shell -s ROBOTSTXT_OBEY = False
. Как пожелаешь.
О пользовательском агенте. Насколько мне известно, для пользовательского агента в оболочке scrapy достаточно одного, для паука-обходчика лучше создать список групп пользовательских агентов и сделать его случайным.
Если этого недостаточно.
Наконец, используйте DOWNLOAD_DELAY = 3
со значением по крайней мере 1 в вашем файле settings.py или команде. Чтобы ваш паук, в обход или оболочку, действовал больше как обычный браузер. Вы также можете использовать AUTOTHROTTLE_ENABLED = True
, по той же причине:
AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 1
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 60