Question

from scrapy.exceptions import DropItem

class DuplicatesPipeline(object):

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            return item

Приведенный выше код взят с официального сайта Scrapy: http://doc.scrapy.org/en/latest/topics/item-pipeline.html, который используется для фильтрации дубликатов.

И, как предлагается в документации Scrapy, http://doc.scrapy.org/en/latest/topics/jobs.html Чтобы приостановить и возобновитьПаук, мне нужно использовать систему Джобса.

Поэтому мне интересно, может ли система Scrapy Jobs сделать фильтр дубликатов постоянным в своем каталоге. Способ реализации фильтра дубликатов настолько прост, что я сомневаюсь.

Gallaecio · Answer 1 · 06 ноября 2019

Вам просто нужно реализовать свой конвейер так, чтобы он читал настройку JOBDIR и, когда эта настройка определена, ваш конвейер:

Считывает начальное значение self.ids_seenиз некоторого файла в каталоге JOBDIR.
Во время выполнения обновляет этот файл по мере добавления новых идентификаторов в набор.

Scrapy Может ли фильтр дубликатов быть постоянным с Джобсом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy Может ли фильтр дубликатов быть постоянным с Джобсом?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы