Как запустить и сохранить состояние Scrapy из скрипта Python - PullRequest
0 голосов
/ 03 мая 2018

В проектах scrapy мы можем получить поддержку постоянства, определив каталог заданий через настройку JOBDIR, например, для.

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

Но как сделать то же самое при запуске пауков с использованием scrapy.crawler.CrawlerProcess из скрипта Python, как было сказано в Как запустить Scrapy из скрипта Python ?

1 Ответ

0 голосов
/ 03 мая 2018

Как указывает ваш справочный вопрос, вы можете передать настройки экземпляру CrawlerProcess.

Так что все, что вам нужно сделать, это передать JOBDIR параметр:

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'JOBDIR': 'crawls/somespider-1'  # <----- Here
})

process.crawl(MySpider)
process.start() 
...