Pandas Серийный уникальный метод, показывающий значения, выглядящие одинаково - PullRequest
1 голос
/ 23 марта 2020

У меня есть pandas фрейм данных. Когда я запускаю метод .unique () для одного из столбцов, он показывает значения, выглядящие одинаково. Как я могу увидеть, как эти значения отличаются? Я пытался индексировать из метода unique (), но значения были просто строками, как показано ниже. Спасибо за помощь.

df["MyColumn"].unique()
array(['yi̇', 'yd', 'yi'], dtype=object)
_______________________________________
df["MyColumn"].unique()[0]
'yi̇'
_______________________________________
df["MyColumn"].unique()[2]
'yi̇'

Ответы [ 2 ]

2 голосов
/ 23 марта 2020

Вы можете проверить код asci, в чем разница, здесь после первого i есть специальное значение 775, как указано в комментарии Er Bharath Ram:

u = ['yi̇', 'yd', 'yi']
print ([list(map(ord,i)) for i in u])
[[121, 105, 775], [121, 100], [121, 105]]
1 голос
/ 23 марта 2020

При ближайшем рассмотрении вы увидите разницу:

'yi̇' # the i letter has two dots
'yi' # normal i letter

Таким образом, вы, похоже, смотрите на два разных символа юникода, которые, однако, выглядят очень похоже.

...