Python - ошибка средства записи SQLite в CSV - значения ASCII не проанализированы - PullRequest
0 голосов
/ 23 июня 2011

После полудня,

У меня возникли проблемы со скриптом SQLite для CSV.Я искал высокий и я искал низкий для ответа, но ни один не работал для меня, или у меня возникла проблема с моим синтаксисом.

Я хочу заменить символы в базе данных SQLite, которые выходят за пределы ASCIIстол (больше 128).

Вот сценарий, который я использовал:

#!/opt/local/bin/python
import sqlite3
import csv, codecs, cStringIO

class UnicodeWriter:
    """
    A CSV writer which will write rows to CSV file "f", 
    which is encoded in the given encoding.
    """

    def __init__(self, f, dialect=csv.excel, encoding="utf-8", **kwds):
        # Redirect output to a queue
        self.queue = cStringIO.StringIO()
        self.writer = csv.writer(self.queue, dialect=dialect, **kwds)
        self.stream = f
        self.encoder = codecs.getincrementalencoder(encoding)()

    def writerow(self, row):
        self.writer.writerow([unicode(s).encode("utf-8") for s in row])
        # Fetch UTF-8 output from the queue ...
        data = self.queue.getvalue()
        data = data.decode("utf-8")
        # ... and reencode it into the target encoding
        data = self.encoder.encode(data)
        # write to the target stream
        self.stream.write(data)
        # empty queue
        self.queue.truncate(0)

    def writerows(self, rows):
        for row in rows:
            self.writerow(row)

conn = sqlite3.connect('test.db')

c = conn.cursor()

# Select whichever rows you want in whatever order you like
c.execute('select ROWID, Name, Type, PID from PID')

writer = UnicodeWriter(open("ProductListing.csv", "wb"))

# Make sure the list of column headers you pass in are in the same order as your SELECT
writer.writerow(["ROWID", "Product Name", "Product Type", "PID", ])
writer.writerows(c)

Я попытался добавить замену, как указано здесь, но получил ту же ошибку. Python: конвертировать Unicode в ASCII без ошибок для CSV-файла

Ошибка UnicodeDecodeError.

Traceback (most recent call last):
  File "SQLite2CSV1.py", line 53, in <module>
    writer.writerows(c)
  File "SQLite2CSV1.py", line 32, in writerows
    self.writerow(row)
  File "SQLite2CSV1.py", line 19, in writerow
    self.writer.writerow([unicode(s).encode("utf-8") for s in row])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 65: ordinal not in range(128)

Очевидно, я хочу, чтобы код был достаточно надежным, чтобы, если онвстречает символы за пределами этих границ, которые он заменяет на такие символы, как '?'(\ x3f).

Есть ли способ сделать это в классе UnicodeWriter?И как я могу сделать код надежным, чтобы он не вызывал этих ошибок.

Ваша помощь очень важна.

Ответы [ 2 ]

1 голос
/ 11 апреля 2012

Если вы просто хотите написать ASCII CSV, просто используйте набор csv.writer().Чтобы убедиться, что все переданные значения действительно являются ASCII, используйте encode('ascii', errors='replace').

Пример:

import csv

rows = [
  [u'some', u'other', u'more'],
  [u'umlaut:\u00fd', u'euro sign:\u20ac', '']
]

with open('/tmp/test.csv', 'wb') as csvFile:
    writer = csv.writer(csvFile)
    for row in rows:
        asciifiedRow = [item.encode('ascii', errors='replace') for item in row]
        print '%r --> %r' % (row, asciifiedRow)
        writer.writerow(asciifiedRow)

Вывод консоли для этого:

[u'some', u'other', u'more'] --> ['some', 'other', 'more']
[u'umlaut:\xfd', u'euro sign:\u20ac', ''] --> ['umlaut:?', 'euro sign:?', '']

ПолученныйCSV-файл содержит:

some,other,more
umlaut:?,euro sign:?,
0 голосов
/ 04 сентября 2014

Имея доступ к среде Unix, вот что сработало для меня

sqlite3.exe a.db .dump > a.sql;
tr -d "[\\200-\\377]" < a.sql > clean.sql;
sqlite3.exe clean.db < clean.sql;

(Это не решение Python, но, возможно, оно поможет кому-то еще из-за своей краткости. Это решение ПОСТРОИТСЯ все не asciiсимволы, не пытается заменить их.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...