Python: использовать модуль кодеков или использовать функцию декодирования строк? - PullRequest
0 голосов
/ 23 января 2009

У меня есть текстовый файл в кодировке UTF-8. Я читаю это, чтобы проанализировать и построить некоторые данные. Я хотел бы, чтобы файл был прочитан как ascii. Будет ли лучше использовать модуль кодеков или встроенный метод декодирования строк? Кроме того, файл разделен как csv, поэтому может ли модуль csv быть правильным решением?

Спасибо за вашу помощь.

1 Ответ

5 голосов
/ 23 января 2009

Вы имеете в виду, что ваш файл закодирован в UTF-8? («Unicode» не является кодировкой ... Обязательное чтение: http://www.joelonsoftware.com/articles/Unicode.html) Я не уверен на 100%, но я думаю, что вы сможете прочитать файл в кодировке UTF-8 с помощью модуля csv, и вы преобразовать строки, содержащие специальные символы, в строки Unicode Python ( edit: , если вам нужно) после прочтения.

Есть несколько примеров использования csv с данными в кодировке UTF-8 на http://docs.python.org./library/csv.html#csv-examples;, это может помочь вам взглянуть на них.

...