Я анализирую XML-файл с SAX в Python.XML читается из потока HTTP через urllib.request.
Однако кажется, что поток XML содержит недопустимые символы.В частности, при декодировании из UTF-8 и выгрузке в файл, похоже, что передо мной стоит куча экземпляров '8000', за которыми следуют разрывы строк.Это приводит к сбою синтаксического анализа SAX.
Мой вопрос состоит из двух частей:
- Как я могу удалить или игнорировать недопустимые символы, если они появляются в потоке данных urllib.request?
- Что может быть 8000, и есть ли более конкретное решение для этой проблемы?
[править]
Я не могу поделиться исходными данными, но этопервые несколько символов в виде строки и шестнадцатеричного числа.Первые символы - это оскорбительный символ «8000».
Строка:
8000<?xml
Шестнадцатеричный:
38:30:30:30:3c:3f:78:6d:6c:20
Строка «8000» можно найти для замены,но это не очень хорошее решение, так как данные могут содержать эту довольно распространенную строку.