Question

У меня есть df, который сейчас выглядит примерно так:

Car Name      Number
Adam Leaf     9
Adamm Leaf    9
Adam Lea      NaN
Adam-Leaf     NaN
Adam/Leaf     9
Claire-Green  NaN
Cliare Green  3
Claire Green  3
Claire Gren   NaN
Claire/Green  3

Я пытаюсь удалить варианты, чтобы добиться чего-то подобного

Car Name      Number
Adam Leaf     9
Claire Green  3

WeNYoBen · Answer 1 · 17 октября 2019

здесь один путь от jellyfish

import jellyfish

s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
              Car Name  Number
Car Name                      
A354         Adam Leaf     9.0
C462      Claire-Green     3.0

User112211 · Answer 2 · 18 октября 2019

Эту проблему можно решить путем вычисления расстояния Левенштейна или, что еще лучше, с помощью библиотеки FuzzyWuzzy

https://www.datacamp.com/community/tutorials/fuzzy-string-python

Удалить похожие дубликаты символьных строк из кадра данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить похожие дубликаты символьных строк из кадра данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы