Я пытаюсь ввести файл с кучей текста с тире и / или тире, их не следует путать с обычным дефисом (знак минус). Проблема в том, что каждый раз, когда я читаю в этом CSV, черточки превращаются в заменяющий символ ( ). Если я пытаюсь кодировать или декодировать файл, я просто получаю сообщения об ошибках о том, что utf-8 не распознает тире. Я просто пытаюсь записать в файл CSV из python? Это просто кажется очень глупой проблемой, которую легко исправить.
Мой код:
df = pd.read_csv('csv file with em dash or en dash')
print(df)
Мой вывод:
col_name
� �
Я попытался заменить тире после того, как они были прочитаны, но это не работает. Я также пытался заменить заменяющего персонажа, но это тоже не сработало. Мое идеальное решение состояло бы в том, что штрихи просто показывают, как они находятся в файле CSV. Я думаю, что это как-то связано с тем, как файл читается в python, но всякий раз, когда я пытаюсь кодировать / декодировать, я просто получаю сообщения об ошибках, которые не поддерживаются тире.