я использую следующее правило
Rule(SgmlLinkExtractor(deny=path_deny_base, deny_domains=deny_domains),
callback='save_page', follow=True)
где path_deny_base:
path_deny_base = [
#'\?(.{80,200})',
'/whois/',
'/edit',
'/login/',
'/calendar/',
'.*\?.*',
'\?',
'/search/',
'/suche/',
]
в этом прогоне я хочу пропустить пути с запросом (? ...) и несколькими другими, и я вижу страницы с URL-адресами, такими как
http://example.com/login/?_cookie_set=yes....
загружены.
есть намеки? Хм да я бы мог попробовать оболочку, сделаю прямо сейчас ...