A pandas DataFrame имеет столбец Address, в котором есть потенциальные «дубликаты», где может быть запись для '1000 MadeUp Street'
и, '1000 MadeUp St'
и '1000 Made Up Stret'
, et c.
Мой план состоял в том, чтобы использовать fuzzywuzzy, чтобы отфильтровать эти потенциальные дубликаты и отметить те, которые выше определенного отношения подобия. Однако циклически проходить по каждой строке и проверять каждую строку может быть ужасно быстро.
Какой самый лучший / быстрый способ сделать это?