Декодирование отличается от Excel до python для одних и тех же кодировок - PullRequest
0 голосов
/ 19 марта 2020

TXT-файл, содержащий результаты моделирования, импортируется в Excel. Расширенный редактор Excel показывает кодировку «1252». Excel импортирует файл и правильно отображает 'æøå'. Чтение того же файла с использованием python 3.8.1 и pandas 1.0.3 на windows 10 с использованием следующего кода:

import pandas as pd

encodings = ['iso8859_10','windows-1252','latin1','cp037', 'cp1026','cp437', 'cp500', 'cp737', 'cp775', 'cp850', 'cp852','cp855','cp860','cp861', 'cp862','cp863', 'cp865', 'cp866','iso8859_10', 'iso8859_13', 'iso8859_14', 'iso8859_15','iso8859_2', 'iso8859_3', 'iso8859_4', 'iso8859_5', 'iso8859_6','iso8859_7', 'iso8859_9', 'koi8_r', 'latin_1','cp1250', 'cp1251', 'cp1252', 'cp1253', 'cp1254', 'cp1255','cp1256', 'cp1257', 'cp1258','cp856', 'cp857', 'cp864', 'cp869', 'cp874']
for enc in encodings:
    try:
        print(enc)
        data = pd.read_csv('WL_at_keypoints_S1.txt',sep='\t',encoding=enc)
        print(data.head())
    except:
        print('---failed---')
        pass

Ни одна из протестированных кодировок не способна правильно отображать 'æøå'. Используемый файл доступен по адресу https://www.dropbox.com/s/m1g5knm7anw2ijg/WL_at_keypoints_S1.txt?dl=0

Символы 'nordi c' ''øå' отображаются с вопросительным знаком - помимо тестирования различных кодировок и различных программ - какие решения / методы используются там для получения правильного кодирования в python - и в частности при чтении данных с использованием pandas?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...