Question

Я хочу запускать паука каждые пару минут.Я добавил в свой проект следующий скрипт, который я хочу вызвать для этой цели.

import schedule, os
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

def job():
      process = CrawlerProcess(get_project_settings())
      process.crawl('amazon_spider')
      process.start() # error: twisted.internet.error.ReactorNotRestartable 
      #process.start(stop_after_crawl=False)  #process get stuck

while True:
     schedule.run_pending()
     schedule.every().minutes.do(job)

При таком подходе процесс выдает следующую ошибку:

twisted.internet.error.ReactorNotRestartable или застрял, если я поставлю process.start (stop_after_crawl = False)

Из предыдущего опубликованного стекового потока я также пытаюсь сделать следующее:

from twisted.internet import reactor
from amazon.spiders.amazon_spider import AmazonSpider
from scrapy.crawler import CrawlerRunner

def run_crawl():

    runner = CrawlerRunner({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
    })
     deferred = runner.crawl(AmazonSpider)
     deferred.addCallback(reactor.callLater, 10, run_crawl)

     return deferred

     run_crawl()
     reactor.run()

Процесс снова застрял всередина функции разбора.Я действительно не знаю, что попробовать дальше.Если у вас есть идея, пожалуйста, дайте мне знать.Заранее спасибо .... (Кстати, это не дубликат, поскольку сообщения на одну и ту же тему не решили мою проблему.

Scrapy: не в состоянии запланировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Scrapy: не в состоянии запланировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы