Question

Я пытаюсь прочитать файл CSV с акцентированными символами с Python (только французские и / или испанские символы). Основываясь на документации Python 2.5 для csvreader (http://docs.python.org/library/csv.html),), я пришел к следующему коду для чтения файла CSV, поскольку csvreader поддерживает только ASCII.

def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
    # csv.py doesn't do Unicode; encode temporarily as UTF-8:
    csv_reader = csv.reader(utf_8_encoder(unicode_csv_data),
                            dialect=dialect, **kwargs)
    for row in csv_reader:
        # decode UTF-8 back to Unicode, cell by cell:
        yield [unicode(cell, 'utf-8') for cell in row]

def utf_8_encoder(unicode_csv_data):
    for line in unicode_csv_data:
        yield line.encode('utf-8')

filename = 'output.csv'
reader = unicode_csv_reader(open(filename))
try:
    products = []
    for field1, field2, field3 in reader:
        ...

Ниже приведен фрагмент файла CSV, который я пытаюсь прочитать:

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert
...

Несмотря на то, что я пытаюсь кодировать / декодировать в UTF-8, я все еще получаю следующее исключение:

Traceback (most recent call last):
  File ".\Test.py", line 53, in <module>
    for field1, field2, field3 in reader:
  File ".\Test.py", line 40, in unicode_csv_reader
    for row in csv_reader:
  File ".\Test.py", line 46, in utf_8_encoder
    yield line.encode('utf-8', 'ignore')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 68: ordinal not in range(128)

Как мне это исправить?

Alex Martelli · Answer 1 · 24 мая 2009

Метод .encode применяется к строке Unicode для создания байтовой строки; но вместо этого вы называете это байтовой строкой ... неправильно! Посмотрите на модуль codecs в стандартной библиотеке и, в частности, codecs.open, чтобы найти лучшие общие решения для чтения текстовых файлов в кодировке UTF-8. Однако, в частности, для модуля csv вам нужно передать данные utf-8, и это то, что вы уже получаете, поэтому ваш код может быть намного проще:

import csv

def unicode_csv_reader(utf8_data, dialect=csv.excel, **kwargs):
    csv_reader = csv.reader(utf8_data, dialect=dialect, **kwargs)
    for row in csv_reader:
        yield [unicode(cell, 'utf-8') for cell in row]

filename = 'da.csv'
reader = unicode_csv_reader(open(filename))
for field1, field2, field3 in reader:
  print field1, field2, field3

PS: если окажется, что ваши входные данные НЕ в utf-8, а, например, в ISO-8859-1 вам потребуется «транскодирование» (если вы заинтересованы в использовании utf-8 на уровне модуля csv) в форме line.decode('whateverweirdcodec').encode('utf-8') - но, вероятно, вы можете просто использовать имя вашей существующей кодировки в строке yield в моем коде выше, вместо 'utf-8', так как csv на самом деле будет хорошо с ISO-8859- * закодированными строками строк.

jb. · Answer 2 · 09 февраля 2013

Python 2.X

Имеется библиотека unicode-csv , которая должна решить ваши проблемы, с дополнительным преимуществом - нет необходимости писать новый код, связанный с csv.

Вот пример из их readme:

>>> import unicodecsv
>>> from cStringIO import StringIO
>>> f = StringIO()
>>> w = unicodecsv.writer(f, encoding='utf-8')
>>> w.writerow((u'é', u'ñ'))
>>> f.seek(0)
>>> r = unicodecsv.reader(f, encoding='utf-8')
>>> row = r.next()
>>> print row[0], row[1]
é ñ

Python 3.X

В Python 3 это поддерживается прямо из коробки встроенным модулем csv. Смотрите этот пример:

import csv
with open('some.csv', newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

Nick Cuevas · Answer 3 · 16 августа 2018

Если вы хотите прочитать CSV-файл с кодировкой utf-8, я рекомендую вам использовать минималистичный подход:

        with open(file_name, encoding="utf8") as csv_file:

С этим утверждением вы можете позже использовать читатель CSV для работы.

Atripavan · Answer 4 · 17 июля 2014

Также зацените ответ в этом посте: https://stackoverflow.com/a/9347871/1338557

Предлагает использовать библиотеку с именем ucsv.py. Короткая и простая замена CSV, написанная для решения проблемы кодирования (utf-8) для Python 2.7. Также обеспечивает поддержку csv.DictReader

Редактировать : Добавление примера кода, который я использовал:

import ucsv as csv

#Read CSV file containing the right tags to produce
fileObj = open('awol_title_strings.csv', 'rb')
dictReader = csv.DictReader(fileObj, fieldnames = ['titles', 'tags'], delimiter = ',', quotechar = '"')
#Build a dictionary from the CSV file-> {<string>:<tags to produce>}
titleStringsDict = dict()
for row in dictReader:
    titleStringsDict.update({unicode(row['titles']):unicode(row['tags'])})

user1154664 · Answer 5 · 04 января 2013

Использование codecs.open, как предположил Алекс Мартелли, оказалось полезным для меня.

import codecs

delimiter = ';'
reader = codecs.open("your_filename.csv", 'r', encoding='utf-8')
for line in reader:
    row = line.split(delimiter)
    # do something with your row ...

van · Answer 6 · 24 мая 2009

Ссылка на страницу справки одинакова для Python 2.6, и, насколько я знаю, в модуле csv не было никаких изменений с 2.5 (кроме исправления ошибок). Вот код, который просто работает без какой-либо кодировки / декодирования (файл da.csv содержит те же данные, что и переменная data ). Я предполагаю, что ваш файл должен быть прочитан правильно без каких-либо преобразований.

test.py:

## -*- coding: utf-8 -*-
#
# NOTE: this first line is important for the version b) read from a string(unicode) variable
#

import csv

data = \
"""0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert"""

# a) read from a file
print 'reading from a file:'
for (f1, f2, f3) in csv.reader(open('da.csv'), dialect=csv.excel):
    print (f1, f2, f3)

# b) read from a string(unicode) variable
print 'reading from a list of strings:'
reader = csv.reader(data.split('\n'), dialect=csv.excel)
for (f1, f2, f3) in reader:
    print (f1, f2, f3)

da.csv:

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert

gimel · Answer 7 · 24 мая 2009

Глядя на таблицу Unicode Latin-1 , я вижу код символа 00E9 " МАЛЕНЬКОЕ ПИСЬМО E С ОСТРЫМ ". Это акцентированный символ в ваших данных образца. Простой тест в Python показывает, что кодировка UTF-8 для этого символа отличается от кодировки Unicode (почти UTF-16).

>>> u'\u00e9'
u'\xe9'
>>> u'\u00e9'.encode('utf-8')
'\xc3\xa9'
>>>

Я предлагаю вам попробовать encode("UTF-8") данные Unicode перед вызовом специального unicode_csv_reader(). Простое чтение данных из файла может скрыть кодировку, поэтому проверьте фактические значения символов.

Чтение файла UTF8 CSV с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python 2.X

Python 3.X

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение файла UTF8 CSV с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python 2.X

Python 3.X

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов