Question

A pandas DataFrame имеет столбец Address, в котором есть потенциальные «дубликаты», где может быть запись для '1000 MadeUp Street' и, '1000 MadeUp St' и '1000 Made Up Stret', et c.

Мой план состоял в том, чтобы использовать fuzzywuzzy, чтобы отфильтровать эти потенциальные дубликаты и отметить те, которые выше определенного отношения подобия. Однако циклически проходить по каждой строке и проверять каждую строку может быть ужасно быстро.

Какой самый лучший / быстрый способ сделать это?

Какой самый быстрый способ проверить похожие адреса в pandas DataFrame?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какой самый быстрый способ проверить похожие адреса в pandas DataFrame?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы