Question

В RSS-канале доступны метаданные сайта (если таковые имеются). Есть ли способ извлечь URL канала (ов) страницы, используя urllib2 или HTMLParser модули? Или есть лучший модуль?

Спасибо.

zeekay · Answer 1 · 09 ноября 2011

Я предпочитаю lxml . У него очень хороший API, а поддержка XPath делает это довольно простым:

import lxml.html
doc = lxml.html.parse(url_to_site)
feeds = doc.xpath('//link[@type="application/rss+xml"]/@href') # list feed urls

Фид URL из HTML с использованием Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Фид URL из HTML с использованием Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы