У меня есть датафрейм в пандах, который содержит название ресторана, но проблема заключается в названии некоторых ресторанов, которые включают латинские буквы, например, é в кафе, â € в Яуатча Pâtisserie все кодируются пандами по-разному, например, Яуатча Pâtisserie был закодирован pandas as Yauatcha PÃ\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82¢tisserie
Существуют разные типы названий ресторанов, содержащие разные латинские буквы, которые по-разному кодируются пандами. Есть ли способ вернуть латинское письмо или его английский эквивалент?
Вы можете скачать набор данных здесь .
Я попытался использовать библиотеку Unicode Python, но это не похоже на работу.
Вот что я попробовал:
import pandas as pd
import unidecode
df = pd.read_csv(r"stod.csv", encoding='latin1')
df['name'].apply(unidecode.unidecode)
Так есть ли способ вернуть латинский алфавит обратно из этого тарабарщины Yauatcha PÃ\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82¢tisserie
.
Любая помощь будет принята с благодарностью.
Примечание: я перепробовал все возможные предложения по решению этого вопроса, но у меня ничего не получалось.