Как исправить символы чешского языка после импорта SAS7BDAT в Python - PullRequest
1 голос
/ 04 ноября 2019

Мне нужно импортировать файл sas7bdat в Python. Один столбец данных - это строки, содержащие слова на чешском языке. Если я пытаюсь импортировать его, чешские буквы отсутствуют.

Я уже пытался использовать pandas pd.read_sas. Тем не менее, у меня в другом столбце большая дата, и pd.read_sas получает ошибку, описанную здесь (однако SAS7BDAT подходит для большой даты). Ниже я скопировал пример сокращенных данных (только одна строка и один столбец набора данных) Это изображение набора тестовых данных ddd24 в SAS

import pandas as pd
from sas7bdat import SAS7BDAT
df7=SAS7BDAT('..\Kreditky\ddd24.sas7bdat').to_data_frame()
print(df7)

Expected=      Střední odborné
Actual result= Stedn odborn

1 Ответ

1 голос
/ 04 ноября 2019

Попробуйте добавить encoding='utf-8' как в

df7=SAS7BDAT('..\Kreditky\ddd24.sas7bdat', encoding='utf-8').to_data_frame()

Если это тоже не сработает, попробуйте найти точную кодировку вашего ввода. Например, encoding='iso-8859-1'.

...