Как я могу преобразовать данные, закодированные в WE8MSWIN1252, в utf8 для использования в скриптах Python? - PullRequest
0 голосов
/ 25 мая 2010

Эти данные поступают из базы данных Oracle и извлекаются в плоские файлы в кодировке 'WE8MSWIN1252'.

Я хочу проанализировать данные и провести некоторый анализ. Я хочу видеть текстовые поля, но мне не нужно публиковать результаты в любой другой системе, поэтому, если некоторые символы не конвертируются идеально, у меня нет проблем с этим.

Я просто не хочу, чтобы мой синтаксический анализ завершился неудачно с ошибкой декодирования, которую я получаю, если использую:

inputFile = codecs.open (dataFileName, "r", "utf-8 '")

1 Ответ

2 голосов
/ 25 мая 2010

Из последних нескольких символов я бы предположил, что эта кодировка - то, что остальной мир называет windows-1252. Так что попробуйте:

inputFile = codecs.open(dataFileName, "r", "windows-1252")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...