У меня есть файл (список авторов из Библиотеки Конгресса) со строками вроде:
Arteaga, Ana Mar�ia
Corval�an-V�asquez, Oscar E.
(при печати на консоли Linux)
Я хотел бы прочитать эти(либо в кадр данных панды, либо в набор строк)
df = pd.read_csv(fname, sep='\t', header='infer', lineterminator=None,encoding='latin1') #lineterminator \r\n hits error
или
with open(fname,'r',encoding='ISO-8859-1') as fp:
lines=fp.readlines()
, но оба не совсем правы, что дает мне вывод, подобный
Arteaga,Ана Мария
(снова при печати на консоли), когда я почти уверен, что настоящее имя должно быть Марией.
Кто-нибудь распознает этот формат?