Как назначить RFPDupeFilter только одному пауку - PullRequest
0 голосов
/ 02 апреля 2020

Я хочу назначить RFPDupeFilter только одному пауку и запланировать всех пауков с scrapyd так, чтобы только один паук фильтровал уже просмотренные URL. Я создал пользовательский фильтр, расширив класс RFPDupeFilter с scrapy.dupefilters.

Я использую scrapy 2.0.0.

Кроме того, я ссылался на свой пользовательский фильтр в setting.py на

DUPEFILTER_CLASS = 'osint.dupefilter.CustomFilter'

и фильтр ссылок только в одном желаемом пауке:

    custom_settings = {
    'DUPEFILTER_CLASS': 'osint.dupefilter.CustomFilter',
    'FEED_FORMAT': 'jsonlines'
    }

После этого все остальные пауки также записывают видимые URL в файл request.seen, и это не поведение, которое я хочу.

Я что-то упустил, пожалуйста, помогите мне.

BR, Том

...