В RSS-канале доступны метаданные сайта (если таковые имеются). Есть ли способ извлечь URL канала (ов) страницы, используя urllib2 или HTMLParser модули? Или есть лучший модуль?
urllib2
HTMLParser
Спасибо.
Я предпочитаю lxml . У него очень хороший API, а поддержка XPath делает это довольно простым:
import lxml.html doc = lxml.html.parse(url_to_site) feeds = doc.xpath('//link[@type="application/rss+xml"]/@href') # list feed urls