Я хочу назначить RFPDupeFilter
только одному пауку и запланировать всех пауков с scrapyd так, чтобы только один паук фильтровал уже просмотренные URL. Я создал пользовательский фильтр, расширив класс RFPDupeFilter с scrapy.dupefilters
.
Я использую scrapy 2.0.0.
Кроме того, я ссылался на свой пользовательский фильтр в setting.py
на
DUPEFILTER_CLASS = 'osint.dupefilter.CustomFilter'
и фильтр ссылок только в одном желаемом пауке:
custom_settings = {
'DUPEFILTER_CLASS': 'osint.dupefilter.CustomFilter',
'FEED_FORMAT': 'jsonlines'
}
После этого все остальные пауки также записывают видимые URL в файл request.seen
, и это не поведение, которое я хочу.
Я что-то упустил, пожалуйста, помогите мне.
BR, Том