Question

Эти данные поступают из базы данных Oracle и извлекаются в плоские файлы в кодировке 'WE8MSWIN1252'.

Я хочу проанализировать данные и провести некоторый анализ. Я хочу видеть текстовые поля, но мне не нужно публиковать результаты в любой другой системе, поэтому, если некоторые символы не конвертируются идеально, у меня нет проблем с этим.

Я просто не хочу, чтобы мой синтаксический анализ завершился неудачно с ошибкой декодирования, которую я получаю, если использую:

inputFile = codecs.open (dataFileName, "r", "utf-8 '")

Daniel Roseman · Answer 1 · 25 мая 2010

Из последних нескольких символов я бы предположил, что эта кодировка - то, что остальной мир называет windows-1252. Так что попробуйте:

inputFile = codecs.open(dataFileName, "r", "windows-1252")

Как я могу преобразовать данные, закодированные в WE8MSWIN1252, в utf8 для использования в скриптах Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу преобразовать данные, закодированные в WE8MSWIN1252, в utf8 для использования в скриптах Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов