Подводя итог: минидому не нравится 8859 именованных сущностей;какое подходящее разрешение?
Вот код, который иллюстрирует мою ситуацию:
sample = """
<html>
<body>
<h1>Un ejemplo</h1>
<p>Me llamo Juan Fulano y Hernández.</p>
</body>
</html>
"""
sample2 = sample.replace("á", "á")
import xml.dom.minidom
dom2 = xml.dom.minidom.parseString(sample2)
dom = xml.dom.minidom.parseString(sample)
Вкратце: когда HTML включает «á» и подобные, выраженные в виде именованных сущностей, minidom жалуется
... xml.parsers.expat.ExpatError: undefined entity ...
Как мне ответить?Могу ли я
- заменить именованные объекты соответствующими литеральными константами?
- Использовать парсер кроме минидома?Который?
- Каким-то образом (с присвоением кодировки?) Убедить минидома в том, что эти именованные сущности крутые?
Не возможно убедить автора (X) HTML отказаться от именованных сущностей.