Открытие и сохранение CSV в Excel изменяет кодировку специальных символов для всех будущих экземпляров - PullRequest
0 голосов
/ 23 сентября 2019

После загрузки некоторых данных из Kaggle (найдено здесь: https://www.kaggle.com/artimous/complete-fifa-2017-player-dataset-global/kernels), я обнаружил, что некоторые данные в файлах имеют искаженные имена из-за того, как обрабатывались специальные символы:

enter image description here

Я подумал, что это была ошибка кодирования, и посмотрел, что '' 'становится' ÌÁ ', чтобы посмотреть, смогу ли я найти конкретную проблему с кодировкой. Хотя я ничего не смог найти в результатах,Я думал, что оригинальный файл на Kaggle находится в UTF-8 и Excel не может его распознать.

Я нашел это как способ конвертировать CSV в другой лист Excel с правильной кодировкой: https://excel.officetuts.net/en/examples/how-to-import-csv-file-that-uses-utf-8-encoding

К сожалению, это не сработало. Я попытался предварительно просмотреть разные типы источников файлов, чтобы увидеть, зафиксировались ли акценты в окне предварительного просмотра, и ни один из них не сработал.

Я пытался кое-что поиграть с CSVнапример, Jupyter, чтобы увидеть, будут ли специальные символы отображаться правильно. К сожалению, символы все еще отображаются неправильно как в Jupyter, так и в Pycharm.

Но когда я открываю CSV в TextEdit, со специальными символами все в порядке, так что я озадачен, но уверен, что речь идет о кодировании.Почему дело обстоит именно так и как я могу избежать этого в будущем?

ПОЛУРЕШЕНО: если вы никогда не сохраняете файл после его открытия в Excel, тогда он правильно открывается в Pycharm, Jupyter и TextEdit.

Похоже, если вы откроете CSV-файл в Excel, а затем снова сохраните его, файл больше не будет открываться, как ожидается в TextEdit, Jupyter или Pycharm.Кажется, что как только вы открываете файл в Excel, независимо от того, сохраняете ли вы его как UTF-8 CSV или нет, кодировка изменяется постоянно.Я не уверен, как и почему это так работает.

...