Прочитайте в csv и узнайте em dash (u '\ u2014') и en dash (u '\ u2013') в python - PullRequest
0 голосов
/ 16 ноября 2018

Я пытаюсь ввести файл с кучей текста с тире и / или тире, их не следует путать с обычным дефисом (знак минус). Проблема в том, что каждый раз, когда я читаю в этом CSV, черточки превращаются в заменяющий символ ( ). Если я пытаюсь кодировать или декодировать файл, я просто получаю сообщения об ошибках о том, что utf-8 не распознает тире. Я просто пытаюсь записать в файл CSV из python? Это просто кажется очень глупой проблемой, которую легко исправить.

Мой код:

df = pd.read_csv('csv file with em dash or en dash')
print(df)

Мой вывод:

col_name
� �

Я попытался заменить тире после того, как они были прочитаны, но это не работает. Я также пытался заменить заменяющего персонажа, но это тоже не сработало. Мое идеальное решение состояло бы в том, что штрихи просто показывают, как они находятся в файле CSV. Я думаю, что это как-то связано с тем, как файл читается в python, но всякий раз, когда я пытаюсь кодировать / декодировать, я просто получаю сообщения об ошибках, которые не поддерживаются тире.

...