У меня есть паук scrapy, работающий в (не бесплатном) аккаунте scrapinghub, который иногда должен распознавать PDF (через Tesseract) - что в зависимости от количества устройств может занять довольно много времени.
То, что я вижу в журнале, выглядит примерно так:
2220: 2019-07-07 22:51:50 WARNING [tools.textraction] PDF contains only images - running OCR.
2221: 2019-07-08 00:00:03 INFO [scrapy.crawler] Received SIGTERM, shutting down gracefully. Send again to force
SIGTERM
всегда приходит примерно через час после сообщения о том, что OCR запущен, поэтому я предполагаю, что есть механизм, который убивает все, если в течение одного часа нет нового запроса или элемента.
Как я могу подключиться к этому и предотвратить отключение? Это пример signal.spider_idle
?