Какой самый быстрый способ проверить похожие адреса в pandas DataFrame? - PullRequest
0 голосов
/ 07 марта 2020

A pandas DataFrame имеет столбец Address, в котором есть потенциальные «дубликаты», где может быть запись для '1000 MadeUp Street' и, '1000 MadeUp St' и '1000 Made Up Stret', et c.

Мой план состоял в том, чтобы использовать fuzzywuzzy, чтобы отфильтровать эти потенциальные дубликаты и отметить те, которые выше определенного отношения подобия. Однако циклически проходить по каждой строке и проверять каждую строку может быть ужасно быстро.

Какой самый лучший / быстрый способ сделать это?

...