Pandas UnicodeEncodeError: кодек 'charmap' не может закодировать символ - PullRequest
0 голосов
/ 14 ноября 2018

Работа с пандами и каждый раз «особый» символ, например: é появляется, выдает ошибку кодирования. это мой код:

import pandas as pd


df = pd.read_csv(r'movies analysis\movie_metadata.csv',encoding='utf-8')
print(df.loc[df['title_year'] == 2015])

и это ошибка, которую я получаю:

 File "D:\ANACONDA\lib\encodings\cp1255.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\xe9' in position 645: character maps to <undefined>

Есть много тем на эту тему, но ни одна не предлагает решение, которое сработало для меня.

1 Ответ

0 голосов
/ 16 ноября 2018

Я закончил тем, что "нормализовал" всех персонажей в ascii. Это не идеально, но у меня работает:

import unicodedata
unicodedata.normalize('NFD', Data_U_Want_To_Normalize).encode('ascii', 'ignore')

, поэтому в случае буквы типа é оно превращается в e.

...