У меня очень большой веб-сайт с множеством URL-адресов, которые я бы хотел найти.Есть ли способ заставить Scrapy игнорировать список URL-адресов?
Сейчас я храню все URL-адреса в столбце БД, я хотел бы иметь возможность перезапустить паука, но пропустить длинный список (24 тыс. Строк) к Scrapy, чтобы он знал, чтобы пропустить те, которые он уже видел.
Есть ли в любом случае, чтобы сделать это?
class MySpider(Spider):
custom_settings = {
'AUTOTHROTTLE_ENABLED': True,
'DOWNLOAD_DELAY': 1.5,
'DEPTH_LIMIT': 0,
'JOBDIR': 'jobs/scrapy_1'
}
name = None
allowed_domains = []
start_urls = []
def parse(self, response):
for link in le.extract_links(response):
yield response.follow(link.url, self.parse)