Чтобы не обременять страницу с scaped ненужными запросами со страниц, в которых я не заинтересован, я хочу исключить их из проверки.
Идея состоит в том, чтобы загрузить список из файла CSV или БД и исключить их через регулярное выражение. Вот пример, где я включил 2 идентификатора статьи в оператор deny:
rules = (
Rule(
LinkExtractor(
# include product pages of interest
allow = ['https:\/\/www\.shop\.com\/(?!test'+exclude_folder+')[a-z0-9-]*\/[a-z0-9-]*-p\d{0,8}$'],
# exclude product pages matching a list of article IDs
deny = ('.*-p(2330517|760165)$')
),
follow = True,
callback= 'parse_item'
),
Теоретически это может работать, но эффективно ли это? Каков рекомендуемый способ исключения множества URL-адресов с адресом 10.000+ c?