Python DictWriter пишет CSV-файлы в кодировке UTF-8 - PullRequest
47 голосов
/ 30 апреля 2011
  1. У меня есть список словарей, содержащих строки Unicode.
  2. csv.DictWriter может записать список словарей в файл CSV.
  3. Я хочу, чтобы файл CSV был закодирован в UTF8.
  4. Модуль csv не может обрабатывать преобразование Unicode-строк в UTF8.
  5. В документации к модулю csv есть пример преобразования всего в UTF8:

    def utf_8_encoder(unicode_csv_data):
        for line in unicode_csv_data:
            yield line.encode('utf-8')
    
  6. Он также имеет класс UnicodeWriter.

Но ... как мне заставить DictWriter работать с ними? Разве им не придется вставлять себя посреди этого, ловить разобранные словари и кодировать их до того, как они запишут их в файл? Я не понимаю.

Ответы [ 6 ]

84 голосов
/ 30 апреля 2011

ОБНОВЛЕНИЕ : сторонний модуль unicodecsv реализует этот 7-летний ответ для вас. Пример ниже этого кода. Также есть решение Python 3, для которого не требуется сторонний модуль.

Оригинальный ответ Python 2

Если используется Python 2.7 или более поздняя версия, используйте понимание dict для переназначения словаря в utf-8, прежде чем переходить к DictWriter:

# coding: utf-8
import csv
D = {'name':u'马克','pinyin':u'mǎkè'}
f = open('out.csv','wb')
f.write(u'\ufeff'.encode('utf8')) # BOM (optional...Excel needs it to open UTF-8 file properly)
w = csv.DictWriter(f,sorted(D.keys()))
w.writeheader()
w.writerow({k:v.encode('utf8') for k,v in D.items()})
f.close()

Вы можете использовать эту идею для обновления UnicodeWriter до DictUnicodeWriter: # кодирование: utf-8 импорт CSV импортировать cStringIO импортные кодеки

class DictUnicodeWriter(object):

    def __init__(self, f, fieldnames, dialect=csv.excel, encoding="utf-8", **kwds):
        # Redirect output to a queue
        self.queue = cStringIO.StringIO()
        self.writer = csv.DictWriter(self.queue, fieldnames, dialect=dialect, **kwds)
        self.stream = f
        self.encoder = codecs.getincrementalencoder(encoding)()

    def writerow(self, D):
        self.writer.writerow({k:v.encode("utf-8") for k,v in D.items()})
        # Fetch UTF-8 output from the queue ...
        data = self.queue.getvalue()
        data = data.decode("utf-8")
        # ... and reencode it into the target encoding
        data = self.encoder.encode(data)
        # write to the target stream
        self.stream.write(data)
        # empty queue
        self.queue.truncate(0)

    def writerows(self, rows):
        for D in rows:
            self.writerow(D)

    def writeheader(self):
        self.writer.writeheader()

D1 = {'name':u'马克','pinyin':u'Mǎkè'}
D2 = {'name':u'美国','pinyin':u'Měiguó'}
f = open('out.csv','wb')
f.write(u'\ufeff'.encode('utf8')) # BOM (optional...Excel needs it to open UTF-8 file properly)
w = DictUnicodeWriter(f,sorted(D.keys()))
w.writeheader()
w.writerows([D1,D2])
f.close()

Python 2 unicodecsv Пример:

# coding: utf-8
import unicodecsv as csv

D = {u'name':u'马克',u'pinyin':u'mǎkè'}

with open('out.csv','wb') as f:
    w = csv.DictWriter(f,fieldnames=sorted(D.keys()),encoding='utf-8-sig')
    w.writeheader()
    w.writerow(D)

Python 3:

Кроме того, встроенный модуль Python 3 csv изначально поддерживает Unicode:

# coding: utf-8
import csv

D = {u'name':u'马克',u'pinyin':u'mǎkè'}

# Use newline='' instead of 'wb' in Python 3.
with open('out.csv','w',encoding='utf-8-sig',newline='') as f:
    w = csv.DictWriter(f,fieldnames=sorted(D.keys()))
    w.writeheader()
    w.writerow(D)
39 голосов
/ 07 марта 2016

Существует простой обходной путь, использующий замечательный модуль UnicodeCSV . После этого просто измените строку

import csv

до

import unicodecsv as csv

И он автоматически начинает хорошо играть с UTF-8.

Примечание: Переход на Python 3 также избавит вас от этой проблемы (спасибо jamescampbell за подсказку). И это то, что нужно делать в любом случае.

15 голосов
/ 30 апреля 2011

Вы можете конвертировать значения в UTF-8 на лету, передавая диктовку DictWriter.writerow().Например:

import csv

rows = [
    {'name': u'Anton\xedn Dvo\u0159\xe1k','country': u'\u010cesko'},
    {'name': u'Bj\xf6rk Gu\xf0mundsd\xf3ttir', 'country': u'\xcdsland'},
    {'name': u'S\xf8ren Kierkeg\xe5rd', 'country': u'Danmark'}
    ]

# implement this wrapper on 2.6 or lower if you need to output a header
class DictWriterEx(csv.DictWriter):
    def writeheader(self):
        header = dict(zip(self.fieldnames, self.fieldnames))
        self.writerow(header)

out = open('foo.csv', 'wb')
writer = DictWriterEx(out, fieldnames=['name','country'])
# DictWriter.writeheader() was added in 2.7 (use class above for <= 2.6)
writer.writeheader()
for row in rows:
    writer.writerow(dict((k, v.encode('utf-8')) for k, v in row.iteritems()))
out.close()

Вывод foo.csv :

name,country
Antonín Dvořák,Česko
Björk Guðmundsdóttir,Ísland
Søren Kierkegård,Danmark
6 голосов
/ 30 апреля 2011

Вы можете использовать некоторый прокси-класс для кодирования значений dict по мере необходимости, например:

# -*- coding: utf-8 -*- 
import csv
d = {'a':123,'b':456, 'c':u'Non-ASCII: проверка'}

class DictUnicodeProxy(object):
    def __init__(self, d):
        self.d = d
    def __iter__(self):
        return self.d.__iter__()
    def get(self, item, default=None):
        i = self.d.get(item, default)
        if isinstance(i, unicode):
            return i.encode('utf-8')
        return i

with open('some.csv', 'wb') as f:
    writer = csv.DictWriter(f, ['a', 'b', 'c'])
    writer.writerow(DictUnicodeProxy(d))
2 голосов
/ 30 апреля 2011

Когда вы вызываете csv.writer со своим контентом, идея состоит в том, чтобы передать контент через utf_8_encoder, как если бы он дал вам кодированный (utf-8) контент.

1 голос
/ 30 сентября 2013

Мое решение немного другое.В то время как все решения, перечисленные выше, направлены на то, чтобы обеспечить совместимость с Unicode, мои решения делают DictWriter совместимым с Unicode.Этот подход даже предлагается в документах Python ( 1 ).

Классы UTF8Recoder, UnicodeReader, UnicodeWriter взяты из документов Python.UnicodeWriter-> writerow тоже немного изменился.

Используйте его как обычный DictWriter / DictReader.

Вот код:

import csv, codecs, cStringIO

class UTF8Recoder:
    """
    Iterator that reads an encoded stream and reencodes the input to UTF-8
    """
    def __init__(self, f, encoding):
        self.reader = codecs.getreader(encoding)(f)

    def __iter__(self):
        return self

    def next(self):
        return self.reader.next().encode("utf-8")

class UnicodeReader:
    """
    A CSV reader which will iterate over lines in the CSV file "f",
    which is encoded in the given encoding.
    """

    def __init__(self, f, dialect=csv.excel, encoding="utf-8", **kwds):
        f = UTF8Recoder(f, encoding)
        self.reader = csv.reader(f, dialect=dialect, **kwds)

    def next(self):
        row = self.reader.next()
        return [unicode(s, "utf-8") for s in row]

    def __iter__(self):
        return self

class UnicodeWriter:
    """
    A CSV writer which will write rows to CSV file "f",
    which is encoded in the given encoding.
    """

    def __init__(self, f, dialect=csv.excel, encoding="utf-8", **kwds):
        # Redirect output to a queue
        self.queue = cStringIO.StringIO()
        self.writer = csv.writer(self.queue, dialect=dialect, **kwds)
        self.stream = f
        self.encoder = codecs.getincrementalencoder(encoding)()

    def writerow(self, row):
        self.writer.writerow([unicode(s).encode("utf-8") for s in row])
        # Fetch UTF-8 output from the queue ...
        data = self.queue.getvalue()
        data = data.decode("utf-8")
        # ... and reencode it into the target encoding
        data = self.encoder.encode(data)
        # write to the target stream
        self.stream.write(data)
        # empty queue
        self.queue.truncate(0)

    def writerows(self, rows):
        for row in rows:
            self.writerow(row)

class UnicodeDictWriter(csv.DictWriter, object):
    def __init__(self, f, fieldnames, restval="", extrasaction="raise", dialect="excel", *args, **kwds):
        super(UnicodeDictWriter, self).__init__(f, fieldnames, restval="", extrasaction="raise", dialect="excel", *args, **kwds)
        self.writer = UnicodeWriter(f, dialect, **kwds)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...