Question

У меня есть паук scrapy, работающий в (не бесплатном) аккаунте scrapinghub, который иногда должен распознавать PDF (через Tesseract) - что в зависимости от количества устройств может занять довольно много времени.

То, что я вижу в журнале, выглядит примерно так:

2220:   2019-07-07 22:51:50 WARNING [tools.textraction] PDF contains only images - running OCR.
2221:   2019-07-08 00:00:03 INFO    [scrapy.crawler] Received SIGTERM, shutting down gracefully. Send again to force

SIGTERM всегда приходит примерно через час после сообщения о том, что OCR запущен, поэтому я предполагаю, что есть механизм, который убивает все, если в течение одного часа нет нового запроса или элемента.

Как я могу подключиться к этому и предотвратить отключение? Это пример signal.spider_idle?

Паук останавливается через час обработки одного предмета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Паук останавливается через час обработки одного предмета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы