scrapy фильтрация повторяющихся запросов - PullRequest
4 голосов
/ 15 февраля 2012

В чем разница между Дублирующим фильтром, который существует в Планировщике, и IgnoreVisitedItems middleware ?

Поток группы Google, который предполагает наличие дублирующего фильтра в Планировщике: http://groups.google.com/group/scrapy-users/browse_thread/thread/8e218bcc5b293532

1 Ответ

12 голосов
/ 19 февраля 2012

Фильтр дубликатов в планировщике отфильтровывает только те URL-адреса, которые уже видны за один запуск паука (это означает, что он будет сброшен при последующих запусках). Промежуточное программное обеспечение IgnoreVistedItems будет поддерживать состояние между запусками и избегать посещения URL-адресов, замеченных в прошлом, но только для окончательных URL-адресов элементов, чтобы можно было повторно сканировать остальную часть сайта (для поиска новых элементов).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...