Sentinel объяснил, как вы можете декодировать ссылки на сущности, например <
, но проблема в этом немного больше.
Пример, который вы приводите, предполагает, что вы читаете фид Atom.Если вы хотите сделать это надежно в Python, то я рекомендую использовать Универсальный анализатор каналов .
Марка Пилигрима. Вот как можно читать канал в вашем примере:
>>> import feedparser
>>> d = feedparser.parse('http://code.google.com/feeds/issues/p/chromium/issues/full/2')
>>> len(d.entries)
1
>>> print d.entries[0].title
Testing if chromium id works
>>> print d.entries[0].description
<b>What steps will reproduce the problem?</b>
<b>1.</b>
<b>2.</b>
<b>3.</b>
<b>What is the expected output? What do you see instead?</b>
<b>Please use labels and text to provide additional information.</b>
Использование feedparser
, вероятно, будет намного более надежным и удобным, чем попытка выполнить собственный синтаксический анализ XML, декодирование сущностей, анализ дат, очистку HTML и т. Д.