Согласно документации, параметр SgmlLinkExtractor allow
- одно регулярное выражение (или список регулярных выражений), которому должны соответствовать URL-адреса ( absolute ) для извлечения. Поэтому параметр allow
будет выглядеть так:
allow=('.*\?q=news.*',)
И, скорее всего, последний параметр правила не allow
, а follow=True
.
Окончательное правило (обратите внимание на escape-знак для знака вопроса):
Rule(SgmlLinkExtractor(allow=('.*\?q=news.*',), restrict_xpaths=('ul[@class="paginator"]',)), callback='parse_item', follow=True)