scry CrawlSpider запрещает путь в SgmlLinkExtractor, кажется, не работает - PullRequest
0 голосов
/ 07 ноября 2011

я использую следующее правило

   Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
        callback='save_page', follow=True)

где path_deny_base:

path_deny_base = [
    #'\?(.{80,200})',
    '/whois/',
    '/edit',
    '/login/',
    '/calendar/',
    '.*\?.*',
    '\?',
    '/search/',
    '/suche/',

]

в этом прогоне я хочу пропустить пути с запросом (? ...) и несколькими другими, и я вижу страницы с URL-адресами, такими как

http://example.com/login/?_cookie_set=yes....

загружены.

есть намеки? Хм да я бы мог попробовать оболочку, сделаю прямо сейчас ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...