Я развернул свой проект Django + Scrapy, запустил scrapyd
.Но когда я пытаюсь запустить паука, он завершает работу, фактически не удаляя информацию со следующей статистикой:
{'memusage/startup': 92348416,
'scheduler/enqueued': 1,
'scheduler/dequeued': 1,
'downloader/request_bytes': 628,
'httperror/response_ignored_status_count/403': 1,
'finish_time': datetime.datetime(2018, 5, 21, 22, 6, 38, 333018),
'downloader/response_status_count/403': 2,
'downloader/request_method_count/GET': 2,
'downloader/response_bytes': 4992,
'downloader/response_count': 2,
'start_time': datetime.datetime(2018, 5, 21, 22, 6, 33, 894037),
'response_received_count': 2,
'memusage/max': 92348416,
'scheduler/dequeued/disk': 1,
'httperror/response_ignored_count': 1,
'downloader/request_count': 2,
'finish_reason': 'finished',
'scheduler/enqueued/disk': 1}
Означает ли это, что мой первый запрос был отклонен с 403 error
?W hy, который может работать на локальном, но не на производстве?
Как я прочитал, это может быть вызвано неправильной настройкой USER_AGENT
, но я уже установил это как:
USER_AGENT='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/'
Как я уже сказал - он работает на локальном, а не на производстве.
PS Вот статистика от того же паука, работающего на локальном:
{
"start_time": "2018-05-22 14:25:45.857504",
"scheduler/enqueued/disk": "89",
"scheduler/enqueued": "89",
"scheduler/dequeued/disk": "89",
"scheduler/dequeued": "89",
"downloader/request_count": "101",
"downloader/request_method_count/GET": "101",
"downloader/request_bytes": "39724",
"downloader/response_count": "101",
"downloader/response_status_count/200": "101",
"downloader/response_bytes": "1901849",
"response_received_count": "101",
"request_depth_max": "1",
"file_count": "88",
"file_status_count/uptodate": "77",
"item_scraped_count": "88",
"file_status_count/downloaded": "11",
"finish_time": "2018-05-22 14:26:31.596248",
"finish_reason": "finished",
}