Есть ли способ начать scrpy crwal с чистого jobdir? - PullRequest
0 голосов
/ 12 февраля 2019

После приостановленного сканирования я хочу возобновить сканирование с включенной опцией JOBDIR, чтобы сохранить состояние нового сканирования, но я хочу стереть состояние предыдущего сканирования, поскольку данные устарели.

Для scrapy нет запуска / остановки / возобновления, единственная команда для управления сканированием -

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

1 Ответ

0 голосов
/ 12 февраля 2019

Если вы намерены начать новый обход контента, в отличие от возобновления ранее приостановленного обхода, вы должны либо удалить старый каталог, либо указать новый каталог:

scrapy crawl somespider -s JOBDIR=crawls/somespider-2
scrapy crawl somespider -s JOBDIR=crawls/somespider-3
...

Запуск и возобновление происходит с помощью одной и той же команды, но на основе имени каталога.Таким образом, если вы укажете новый каталог, это будет считаться «началом».Если вы указываете существующий каталог, он считается «резюме».Вы можете остановить / приостановить сканирование, нажав Ctrl+C.Обратитесь к документации: https://docs.scrapy.org/en/latest/topics/jobs.html#how-to-use-it

...