Я работаю над скриптом Python, который читает XML-файл, закодированный с помощью UTF-8, выполняет некоторые манипуляции с ним и сохраняет его в хранилище данных Google (это программа App Engine).
Я читаю и анализирую файлы только с помощью file.readline () и нескольких регулярных выражений. Единственная проблема заключается в том, что файл, с которым я работаю, содержит символы из разных языков, например, он может содержать символы é или Å, русский или греческий.
Сначала я получал такую ошибку: «UnicodeDecodeError: кодек« ascii »не может декодировать байт 0xd0 в позиции 0: порядковый номер не в диапазоне (128)». Затем я попытался переключить кодировку открытого файла на «ISO-8859-15», что избавляет от ошибки, но выводимые символы отображаются неправильно.
Итак, мой вопрос: как работать с файлом, закодированным в UTF-8 в Python, без застревания Python на всех специальных символах в файле? Я надеюсь, что это было достаточно ясно, и заранее спасибо за любой совет.