Как заставить scrapy использовать postgres вместо локальной базы данных sqllite? - PullRequest
0 голосов
/ 25 февраля 2019

Я установил эту строку

MySpider.custom_settings['JOBDIR'] = 'jobs/scrapy

Но теперь мне не хватает места на моем экземпляре EC2, я получаю сообщение об ошибке: «[Errno 28] Нет свободного места на устройстве»

JOBDIR, похоже, следит за тем, что видел / не видел паук-скрап.В идеале я бы использовал базу данных postgres для хранения этого вместо JOBDIR, кто-нибудь знает, как я могу передать это?

Есть ли параметр, который я могу установить, который вместо хранилища JOBDIR указывает на таблицу в базе данных postgres?этого локального файла sqlite?

В качестве альтернативы, есть ли способ, которым я могу просто очистить некоторые данные без паука, чтобы начать все заново?

РЕДАКТИРОВАТЬ: При дальнейшем исследовании я обнаружилчто файл в файле jobs / scrapy / запросы.queue с именем p0 имеет значение MASSIVE, 4 ГБ.Для чего используется этот файл и почему он такой большой?

У меня есть сайт аналогичного размера для сканирования, с таким же количеством найденных URL-адресов, а размер файла p0 составляет всего 5 МБ.Могу ли я удалить этот файл p0 или это заставит паука начать с начала?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...