Фид URL из HTML с использованием Python - PullRequest
1 голос
/ 09 ноября 2011

В RSS-канале доступны метаданные сайта (если таковые имеются). Есть ли способ извлечь URL канала (ов) страницы, используя urllib2 или HTMLParser модули? Или есть лучший модуль?

Спасибо.

1 Ответ

2 голосов
/ 09 ноября 2011

Я предпочитаю lxml . У него очень хороший API, а поддержка XPath делает это довольно простым:

import lxml.html
doc = lxml.html.parse(url_to_site)
feeds = doc.xpath('//link[@type="application/rss+xml"]/@href') # list feed urls
...