Как изменить кодировку .csv.gz на utf-8 - PullRequest
0 голосов
/ 11 июня 2019

Я хочу, чтобы пользователь R или Python преобразовал файл .csv.gz в кодировку utf-8. Как я могу сделать это напрямую? Я не могу найти исчерпывающее руководство, как это сделать.

Моя лучшая попытка состояла в том, чтобы прочитать файл .csv.gz с csv.reader в python:

csvFile = gzip.open('pracodawcy_20190611_5.csv.gz', 'rt', newline='')
reader = csv.reader(csvFile)

Но позже, как сохранить его как csv с utf-8?

1 Ответ

0 голосов
/ 11 июня 2019

Очень просто, он помещает файл в вектор:

import gzip

### assuming the file is separated as you said
with gzip.open('input_file.csv.gz', 'rt', newline='\n') as f:
    content = f.readlines()

### to print the vector content
for v in content :
    print(v)

### to write to .csv.gz
with gzip.open('output.csv.gz', 'wb') as f:
for v in content :
    f.write(v.encode('utf-8'))

Вы также можете лениво открывать его в строке на строку, если она слишком велика с read () или for.Здесь и в Интернете много примеров.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...