Есть ли способ запретить домены в scrapy? - PullRequest
0 голосов
/ 02 декабря 2018

Есть ли способ передать список в scrapy, чтобы сообщить ему, какие домены он не может посетить?

В некотором роде это противоположно allow_domains = ['google.com']

Я пытаюсь выполнить более широкий обход, но зацикливаюсь на больших доменах с тысячами страниц, содержащих нерелевантную информацию.

Моя цель слишком широка, чтобы перечислить все в "allow_domains", я просто хочу исключить списоксайтов, которые я выбираю.

Спасибо

1 Ответ

0 голосов
/ 02 декабря 2018

Не существует встроенного способа сделать то, что вы хотите.

Самым простым способом достижения этого, вероятно, будет замена скрапа OffsiteMiddleware на пользовательский.
Что-то каквсе, что вам нужно - это просто перезаписать метод should_follow().

...