Scrap разрешить все домены - PullRequest
7 голосов
/ 03 марта 2012

Я видел эту запись, чтобы заставить scrapy сканировать любой сайт без ограничения разрешенных доменов.

Есть ли лучший способ сделать это, например, использовать регулярное выражение в переменной разрешенных доменов, например, -

allowed_domains = ["*"]

Я надеюсь, что есть и другой способ, кроме как взломать Scrap Framework для этого.

Ответы [ 2 ]

14 голосов
/ 03 марта 2012

Не устанавливать разрешенные_домены вообще.

Посмотрите на функцию get_host_regex () в этом файле scopy:

https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/spidermiddleware/offsite.py

1 голос
/ 25 августа 2013

Вы должны определить внешнее промежуточное ПО, которое является встроенным промежуточным программным обеспечением для пауков в scrapy. для получения дополнительной информации http://doc.scrapy.org/en/latest/topics/spider-middleware.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...