Как использовать Pandas read_csv? - PullRequest
0 голосов
/ 18 ноября 2018

Я пытаюсь загрузить файл CSV, но постоянно получаю следующую ошибку

UnicodeDecodeError: кодек «utf-8» не может декодировать байт 0xa1 в позиции 0: недопустимый начальный байт

Вот мой код:

import numpy as np
dataset = pd.read_csv('refined5.csv', error_bad_lines=False, skiprows=[0])

Файл можно найти здесь: jmp.sh/xKopnNi

Я понимаю, что это ошибка преобразования Unicode. Я хочу, чтобы Python загрузил или пропустил этострока, чтобы загрузить остальную часть файла.

Ответы [ 3 ]

0 голосов
/ 18 ноября 2018

Попробуйте открыть файл в блокноте и сохранить его в кодировке UTF-8. Это сработало для меня, когда у меня была похожая ошибка.

0 голосов
/ 18 ноября 2018

Используйте encoding = 'latin1' при чтении файла.

Downloads$ python3
Python 3.7.0 (default, Jul 23 2018, 20:22:55)
[Clang 9.1.0 (clang-902.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy as np
>>> import pandas as pd
>>> dataset = pd.read_csv('refined5.csv', encoding = 'latin1')
>>> dataset
           human fall flat  1277.33
           0  ¡??æ? ??æª ????        1
0 голосов
/ 18 ноября 2018

Проверьте это:

Я загрузил запись об ошибке, которую вы упомянули в csv файле (f1.txt):

mayankp@mayank:~/$ cat f1.txt 
¡??ˆæ? ??ˆæª Ÿ??ˆ??,1

In [89]: df = pd.read_csv('f1.txt', header=None)

In [90]: df
Out[90]: 
                     0  1
0  ¡??ˆæ? ??ˆæª Ÿ??ˆ??  1

IЯ могу легко прочитать это через панд.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...