Question

Я установил эту строку

MySpider.custom_settings['JOBDIR'] = 'jobs/scrapy

Но теперь мне не хватает места на моем экземпляре EC2, я получаю сообщение об ошибке: «[Errno 28] Нет свободного места на устройстве»

JOBDIR, похоже, следит за тем, что видел / не видел паук-скрап.В идеале я бы использовал базу данных postgres для хранения этого вместо JOBDIR, кто-нибудь знает, как я могу передать это?

Есть ли параметр, который я могу установить, который вместо хранилища JOBDIR указывает на таблицу в базе данных postgres?этого локального файла sqlite?

В качестве альтернативы, есть ли способ, которым я могу просто очистить некоторые данные без паука, чтобы начать все заново?

РЕДАКТИРОВАТЬ: При дальнейшем исследовании я обнаружилчто файл в файле jobs / scrapy / запросы.queue с именем p0 имеет значение MASSIVE, 4 ГБ.Для чего используется этот файл и почему он такой большой?

У меня есть сайт аналогичного размера для сканирования, с таким же количеством найденных URL-адресов, а размер файла p0 составляет всего 5 МБ.Могу ли я удалить этот файл p0 или это заставит паука начать с начала?

Как заставить scrapy использовать postgres вместо локальной базы данных sqllite?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как заставить scrapy использовать postgres вместо локальной базы данных sqllite?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов