Некоторые из бенгальских символов, таких как «ৎ», «।»показывает ParseError, когда я пытаюсь проанализировать xml-файл «temp.xml» ниже:
<?xml version="1.0" encoding="UTF-8"?>
<doc>
<WORD>
<অ>
<অসুখে>অসুখ</অসুখে>
<অসৎকে>অসৎ</অসৎকে>
</অ>
</WORD>
</doc>
, чтобы проанализировать его с помощью python:
import xml.etree.ElementTree as ET
trees = ET.parse('temp.xml')
roots = trees.getroot()
выдает ошибку:
File "<string>", line unknown
ParseError: not well-formed (invalid token): line 6, column 11
ошибка для строки файла XML (для символа 'ৎ'):
<অসৎকে>অসৎ</অসৎকে>
Как я могу разобрать эти символы?