Scrapy - только соскоб доменных имен - PullRequest
0 голосов
/ 14 марта 2019

Как я могу реализовать очистку только доменных имен с помощью Scrapy.

Я не заинтересован в глубоком поиске любого домена .tld.Моя идея заключалась в том, чтобы использовать только глубину 1 переход от индексной страницы каждого домена - поэтому прямых ссылок с домашней страницы было бы достаточно для буфера ссылок.

Мне нужен как можно быстрее гусеничный ход.

Я хочу ограничить область доменов .cz

Спасибо.

1 Ответ

0 голосов
/ 14 марта 2019

Вы можете использовать параметр DEPTH_LIMIT на SETTINGS, чтобы ограничить сканирование до требуемой глубины.

https://docs.scrapy.org/en/latest/topics/settings.html?highlight=depth_limit

Если вы хотите сделать только 1 прыжок в глубину, вы должны установить DEPTH_LIMIT=2 и выбрать ссылки, используя selector или link_extractor.

Ex: response.xpath('//a/@href').re(r'.*.example.com.*')

https://docs.scrapy.org/en/latest/topics/selectors.html https://docs.scrapy.org/en/latest/topics/spiders.html?highlight=link_extractor

...