Самый эффективный способ исключить список из 10K + URL-адресов с помощью скрапинга? - PullRequest
0 голосов
/ 19 апреля 2020

Чтобы не обременять страницу с scaped ненужными запросами со страниц, в которых я не заинтересован, я хочу исключить их из проверки.

Идея состоит в том, чтобы загрузить список из файла CSV или БД и исключить их через регулярное выражение. Вот пример, где я включил 2 идентификатора статьи в оператор deny:

rules = (

    Rule(
        LinkExtractor(

        # include product pages of interest
        allow   = ['https:\/\/www\.shop\.com\/(?!test'+exclude_folder+')[a-z0-9-]*\/[a-z0-9-]*-p\d{0,8}$'], 

        # exclude product pages matching a list of article IDs
        deny    = ('.*-p(2330517|760165)$')
        ),
            follow  = True,
            callback= 'parse_item'
    ),

Теоретически это может работать, но эффективно ли это? Каков рекомендуемый способ исключения множества URL-адресов с адресом 10.000+ c?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...