Question

Я получаю свой результат из RSS-канала, используя следующий код:

try:  
desc = item.xpath('description')[0].text
if date is not None:
    desc =date +"\n"+"\n"+desc
except:
    desc = None

Но иногда описание содержит несколько символов html Юникода в ленте, как показано ниже:

Текст из XML выглядит как «и с» и другими & ...; вещами

При отображении содержимого я не хочу, чтобы они отображались. Есть ли регулярное выражение для удаления тегов HTML.

Louis · Answer 1 · 07 сентября 2011

Я использовал что-то под названием «Unescaping XML», не знаю, полезно ли это вам.

from xml.sax.saxutils import unescape

unescape("&lt; &amp; &gt;")

'< & >'




unescape("&apos; &quot;", {"&apos;": "'", "&quot;": '"'})

'\' "'

редактировать

Только что видел это, может быть, интересно. (Не проверено): unescape с urllib

Регулярное выражение для удаления "'из строки в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.