from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Duplicate item found: %s" % item)
else:
self.ids_seen.add(item['id'])
return item
Приведенный выше код взят с официального сайта Scrapy: http://doc.scrapy.org/en/latest/topics/item-pipeline.html, который используется для фильтрации дубликатов.
И, как предлагается в документации Scrapy, http://doc.scrapy.org/en/latest/topics/jobs.html Чтобы приостановить и возобновитьПаук, мне нужно использовать систему Джобса.
Поэтому мне интересно, может ли система Scrapy Jobs сделать фильтр дубликатов постоянным в своем каталоге. Способ реализации фильтра дубликатов настолько прост, что я сомневаюсь.