Scrapy использует конвейеры, чтобы выполнить дополнительную обработку (проверку и фильтрацию) данных, которые извлекаются с веб-сайтов.
Вы можете написать пиплайн, который будет использоваться для проверки уникальных элементов и отбрасывания элементов. которые являются дубликатами.
Вот пример из python документов:
from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
def __init__(self):
self.ids_seen = set()
def process_item(self, item, spider):
if item['id'] in self.ids_seen:
raise DropItem("Duplicate item found: %s" % item)
else:
self.ids_seen.add(item['id'])
return item
Подробнее о конвейерах здесь