Как сканировать несколько сайтов в разные сроки в scrapy - PullRequest
0 голосов
/ 19 сентября 2018

У меня есть несколько сайтов, хранящихся в базе данных, с разным временем сканирования, как каждые 5/10 минут для каждого сайта.Я создал паука, чтобы ползти и бегать с cron.Он возьмет все сайты из базы данных и запустит параллельное сканирование для всех сайтов.Как я могу реализовать сканирование каждого веб-сайта с разным временем, которое хранится в базе данных?Есть ли способ справиться с этим в скрапе?

1 Ответ

0 голосов
/ 19 сентября 2018

Вы пытались поиграть с добавлением компонента планирования в start_requests?

def start_requests(self):
    while:
        for spid_url in url_db['to_crawl'].find(typ='due'):
            // update url to crawltime
            yield scrapy.Request(...)

        // sleep until next_url_is_due
        // set_crawl_to_due    
        if enough:
            break
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...