Question

я использую следующее правило

   Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
        callback='save_page', follow=True)

где path_deny_base:

path_deny_base = [
    #'\?(.{80,200})',
    '/whois/',
    '/edit',
    '/login/',
    '/calendar/',
    '.*\?.*',
    '\?',
    '/search/',
    '/suche/',

]

в этом прогоне я хочу пропустить пути с запросом (? ...) и несколькими другими, и я вижу страницы с URL-адресами, такими как

http://example.com/login/?_cookie_set=yes....

загружены.

есть намеки? Хм да я бы мог попробовать оболочку, сделаю прямо сейчас ...

scry CrawlSpider запрещает путь в SgmlLinkExtractor, кажется, не работает

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

scry CrawlSpider запрещает путь в SgmlLinkExtractor, кажется, не работает

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов