Я установил эту строку
MySpider.custom_settings['JOBDIR'] = 'jobs/scrapy
Но теперь мне не хватает места на моем экземпляре EC2, я получаю сообщение об ошибке: «[Errno 28] Нет свободного места на устройстве»
JOBDIR, похоже, следит за тем, что видел / не видел паук-скрап.В идеале я бы использовал базу данных postgres для хранения этого вместо JOBDIR, кто-нибудь знает, как я могу передать это?
Есть ли параметр, который я могу установить, который вместо хранилища JOBDIR указывает на таблицу в базе данных postgres?этого локального файла sqlite?
В качестве альтернативы, есть ли способ, которым я могу просто очистить некоторые данные без паука, чтобы начать все заново?
РЕДАКТИРОВАТЬ: При дальнейшем исследовании я обнаружилчто файл в файле jobs / scrapy / запросы.queue с именем p0 имеет значение MASSIVE, 4 ГБ.Для чего используется этот файл и почему он такой большой?
У меня есть сайт аналогичного размера для сканирования, с таким же количеством найденных URL-адресов, а размер файла p0 составляет всего 5 МБ.Могу ли я удалить этот файл p0 или это заставит паука начать с начала?