конвертировать латинские буквы в соответствующий английский алфавит в пандах - PullRequest
0 голосов
/ 17 апреля 2019

У меня есть датафрейм в пандах, который содержит название ресторана, но проблема заключается в названии некоторых ресторанов, которые включают латинские буквы, например, é в кафе, â € в Яуатча Pâtisserie все кодируются пандами по-разному, например, Яуатча Pâtisserie был закодирован pandas as Yauatcha PÃ\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82¢tisserie Существуют разные типы названий ресторанов, содержащие разные латинские буквы, которые по-разному кодируются пандами. Есть ли способ вернуть латинское письмо или его английский эквивалент?

Вы можете скачать набор данных здесь . Я попытался использовать библиотеку Unicode Python, но это не похоже на работу. Вот что я попробовал:

import pandas as pd
import unidecode
df = pd.read_csv(r"stod.csv", encoding='latin1')
df['name'].apply(unidecode.unidecode)

Так есть ли способ вернуть латинский алфавит обратно из этого тарабарщины Yauatcha PÃ\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x83Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x83Ã\x83Â\x82Ã\x82Â\x82Ã\x83Â\x83Ã\x82Â\x82Ã\x83Â\x82Ã\x82¢tisserie.

Любая помощь будет принята с благодарностью.

Примечание: я перепробовал все возможные предложения по решению этого вопроса, но у меня ничего не получалось.

...