Попытка импортировать файл csv, содержащий не-ascii символы, в кадр данных - PullRequest
0 голосов
/ 27 мая 2019

При попытке импортировать CSV-файл в кадр данных Pandas я получаю UnicodeEncodeError, потому что некоторые символы в CSV не могут быть закодированы ascii.CSV изначально закодирован в UTF-8.

Мой код:

df1 = pd.read_csv(r'‪F:\data\Housing.csv')

UnicodeEncodeError: кодек «ascii» не может кодировать символ «\ u202a» в позиции 0: порядковый номер не в диапазоне (128)

Теперь я попробовал несколько предложений, размещенных в stackoverflow, чтобы решить эту проблему, но, увы, пока ничего не помогло.

Например, я сохранил файл csv в кодировке ascii и попытался использоватькоманда open, надеясь, что я смогу оттуда добраться до кадра данных:

open('‪F:\data\Housing.csv', mode='r', encoding='ascii', errors='replace')

Однако, если я использую «заменить» или «игнорировать», ошибка все еще остается, я также попытался использовать оригинальную кодировку = 'utf-8 ':

UnicodeEncodeError: кодек «ascii» не может кодировать символ «\ u202a» в позиции 0: порядковый номер не в диапазоне (128)

Iтакже пытался использовать codecs.open, но тот же результат сохраняется.

Возможно, кто-то здесь знает, как можно решить эту проблему?Желательно заменить символы, вызывающие ошибки, на?знак.

Заранее спасибо!

...