Удалить похожие дубликаты символьных строк из кадра данных - PullRequest
1 голос
/ 17 октября 2019

У меня есть df, который сейчас выглядит примерно так:

Car Name      Number
Adam Leaf     9
Adamm Leaf    9
Adam Lea      NaN
Adam-Leaf     NaN
Adam/Leaf     9
Claire-Green  NaN
Cliare Green  3
Claire Green  3
Claire Gren   NaN
Claire/Green  3

Я пытаюсь удалить варианты, чтобы добиться чего-то подобного

Car Name      Number
Adam Leaf     9
Claire Green  3

Ответы [ 2 ]

3 голосов
/ 17 октября 2019

здесь один путь от jellyfish

import jellyfish

s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
              Car Name  Number
Car Name                      
A354         Adam Leaf     9.0
C462      Claire-Green     3.0
0 голосов
/ 18 октября 2019

Эту проблему можно решить путем вычисления расстояния Левенштейна или, что еще лучше, с помощью библиотеки FuzzyWuzzy

https://www.datacamp.com/community/tutorials/fuzzy-string-python

...