У меня большой XML файл с несколькими article
узлами. Я включил только один с проблемой. Я пытаюсь разобрать его в Python, чтобы отфильтровать некоторые данные, и я получаю сообщение об ошибке
File "<string>", line unknown
ParseError: undefined entity Ö: line 90, column 17
Пример файла XML
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE dblp SYSTEM "dblp.dtd">
<dblp>
<article mdate="2019-10-25" key="tr/gte/TR-0146-06-91-165" publtype="informal">
<author>Alejandro P. Buchmann</author>
<author>M. Tamer Özsu</author>
<author>Dimitrios Georgakopoulos</author>
<title>Towards a Transaction Management System for DOM.</title>
<journal>GTE Laboratories Incorporated</journal>
<volume>TR-0146-06-91-165</volume>
<month>June</month>
<year>1991</year>
<url>db/journals/gtelab/index.html#TR-0146-06-91-165</url>
</article>
</dblp>
Из моего поиска в Google я обнаружил, что такого рода ошибки появляются, если у вас есть проблемы с именами узлов. Однако строка с ошибкой - вторая author
в тексте.
Это мой Python код
with open('xaa.xml', 'r') as xml_file:
xml_tree = etree.parse(xml_file)