Я пытаюсь проанализировать файл PostHistory.xml из обмена обмена стека *1002*.Мой код выглядит так:
import xml.etree.ElementTree as eTree
with open("PostHistory.xml", 'r') as xml_file:
xml_tree = eTree.parse(xml_file)
Но я получаю:
UnicodeDecodeError: 'utf-8' codec can't decode
bytes in position 1959-1960: invalid continuation byte
Я могу прочитать текст файла так:
with open("PostHistory.xml") as xml_file:
a = xml_file.readline()
Файл* команда возвращает это описание для файла:
PostHistory.xml: XML 1.0 document, UTF-8 Unicode (with BOM) text,
with very long lines, with CRLF line terminators
Также первая строка файла подтверждает кодировку UTF-8:
<?xml version="1.0" encoding="utf-8"?>
Я пытался добавить параметр encoding="utf-8-sig"
но я снова получил ту же ошибку.
Размер файла 112 Гб.Я что-то здесь упускаю?