Все файлы не "Unicode".Unicode - это внутреннее представление, которое должно быть закодировано.Для каждого файла необходимо определить, какая кодировка использовалась, и указать, где это необходимо, при открытии файла.
В качестве сообщения трассировки и ошибки указывается , файл ввопрос НЕ закодирован в cp1252
.
Если он закодирован в latin1
, то "\x81"
, на который он жалуется, является управляющим символом C1, который даже не имеет имени (в Юникоде). Считаете, что latin1
крайне маловероятно, чтобы быть действительным.
Вы говорите, что "некоторые файлы проанализированы с xml.dom.minidom" - проанализированы успешно или неудачно?
Действительный файл XML должен объявить свою кодировку (по умолчанию UTF-8) в первой строке, и вам не нужно указывать кодировку в своем коде.Покажите нам код, который вы используете для разбора xml.dom.minidom.
«другие читают как итерируемые» - пример кода, пожалуйста.
Предложение: попробуйте открыть некоторые из них.Тип файла в вашем браузере.Затем нажмите «Вид» и нажмите «Кодировка символов» (Firefox) или «Кодировка» (Internet Explorer).Какую кодировку угадал браузер [обычно надежно]?
Другие возможные ключи кодировки: Какие языки используются в тексте в файлах?Откуда вы взяли файлы?
Примечание: пожалуйста, отредактируйте свой вопрос с уточняющей информацией;не отвечайте в комментариях.