У меня есть файл данных pandas, загруженный из CSV, с одним столбцом, который закодировал символы Юникода, такие как \u00ca
.метод str.normalize()
должен позаботиться об этом, но он не работает, даже когда он работает с unicodedata.normalize
import unicodedata
s = 'BC - CPE LE H\u00caTRE INC.'
unicodedata.normalize('NFKD', s)
>> 'BC - CPE LE HÊTRE INC.'
Но не тогда, когда он входит в серию панд.
import pandas as pd
names = ['BC - CPE LE H\u00caTRE INC.',
'BC - CPE LE CHEZ-MOI DES PETITS',
'BC GARDE MILIEU FAMILIAL DE BORDEAUX-CARTIERVILLE',
'BC - BCGMF AHUNSTIC',
'BC - CPE LE JARDIN DES R\u00caVES INC.',
'BC - \FORCE VIVE\" CPE"',
'BC - CPE GAMINVILLE INC.',
'BC - CPE PIROUETTE DE FABREVILLE INC.',
'B.C. ST-MICHEL',
'BC - CPE DU PARC',
'BC - CPE LA TROTTINETTE CAROTTEE',
'BC - CPE DE MONTR\u00c9AL-NORD']
names = pd.Series(names)
names.str.normalize('NFKD')
>> 0 BC - CPE LE H\u00caTRE INC.
1 BC - CPE LE CHEZ-MOI DES PETITS
2 BC GARDE MILIEU FAMILIAL DE BORDEAUX-CARTIERVILLE
3 BC - BCGMF AHUNSTIC
4 BC - CPE LE JARDIN DES R\u00caVES INC.
5 BC - \FORCE VIVE\" CPE"
6 BC - CPE GAMINVILLE INC.
7 BC - CPE PIROUETTE DE FABREVILLE INC.
8 B.C. ST-MICHEL
9 BC - CPE DU PARC
10 BC - CPE LA TROTTINETTE CAROTTEE
11 BC - CPE DE MONTR\u00c9AL-NORD
dtype: object
Я также пробовал все возможные варианты str.encode
и str.decode
до и после normalize
.Ничего не изменилось.