У меня есть список URL, которые я хотел бы просмотреть - 3000 из них.
Я хотел бы пройти три уровня по каждому URL, НО я не хочу переходить на внешние URL - только ссылки в доменах моего стартового списка.
Я понимаю, что если бы я хотел сделать это всего несколькими URL, я бы просто заполнил список allowed_domains
.
Однако, когда вы получаете 3000 URL, список allowed_domains
слишком велик для Scrapy, чтобы справиться с ним (насколько я могу судить, он превращается в большой RegEx), поэтому он ломается ...
Есть идеи?
Что-то в списке "правил" было бы хорошо.
rules = (Rule(SgmlLinkExtractor(allow = (<local_links_only??>)) ,callback = 'parse_item'),)
Или что-то в промежуточном программном обеспечении Offsite - в любом случае, чтобы получить ссылку-ссылку?
или пакетная работа? получить 50 URL одновременно? есть ли какие-нибудь хуки, позволяющие что-то подобное - я вижу start_requests
- но нет обратного вызова для чего-то вроде finish_requests
, который я мог бы использовать, чтобы снова заполнить список start_urls
?
Guy