Мне было интересно, пытался ли кто-нибудь извлекать / переходить по ссылкам на RSS-элементы, используя
SgmlLinkExtractor / CrawlSpider. Я не могу заставить его работать ...
Я использую следующее правило:
rules = (
Rule(SgmlLinkExtractor(tags=('link',), attrs=False),
follow=True,
callback='parse_article'),
)
(учитывая, что ссылки rss находятся в теге link ).
Я не уверен, как заставить SgmlLinkExtractor извлечь текст () из
ссылка а не поиск атрибутов ...
Любая помощь приветствуется,
Заранее спасибо