Специальный символ, не кодирующий панд - PullRequest
0 голосов
/ 24 января 2019

Я пытаюсь объединить несколько полей вместе с помощью панд. Я сделал это успешно раньше. Моя проблема между двумя столбцами, мне нужно вставить специальный символ «à». Независимо от того, что я пробовал, этот символ всегда превращается в знак вопроса после его экспорта в CSV.

Я попытался открыть в Excel и Notepad ++, оба делают одно и то же, независимо от того, что я сообщаю программе, кодировка.

Кикер в том, что в моем наборе данных и в моем скрипте есть другие специальные символы, но они вели себя правильно.

Я пробовал:

  • кодирование специального символа специально для utf-8
  • Превращение в переменную и затем кодирование в utf-8
  • кодирование CSV, когда он первоначально открыт в пандах
  • кодирование csv при записи в новый файл при экспорте
  • заполнение столбца только специальным символ и объединение его с остальными значениями

Я хочу вот что:

401 À 403 РУП ТОМАС ЛАЧЮТ КВЕБЕК J8H 4N7

Что я получаю, это:

401? 403 RUE THOMAS LACHUTE QUEBEC J8H 4N7

dfFromCRM.loc[((dfFromCRM['Province']=='QUEBEC') & (dfFromCRM['Street Number From']!=0), 
['Address'])]= dfFromCRM['Street Number From'].map(str)  + 'à' +  concatonateQuebec

1 Ответ

0 голосов
/ 24 января 2019

Если вы конвертируете фрейм данных в csv, используйте в качестве кодировки utf-8-sig. Может сработает dataframe.to_csv (filepath, encoding = 'utf-8-sig', index = False)

...