Соответствие строки на большом наборе данных в python - PullRequest
0 голосов
/ 04 марта 2020

У меня есть набор данных с примерно 3000000 строками. Данные состоят из таких столбцов, как customer_pincode, customer_state, customer_city, customer_address, customer_name. Теперь мне нужно найти людей, живущих по одному и тому же адресу, получив приблизительное совпадение адреса. Для этого Я сгруппировал данные на основе пин-кодов, после чего я получил числа из адресной строки, а затем снова сгруппировал данные на основе номеров, после чего создал сетку всех адресов по номерам, а затем взял fuzz.token_sort_ratio с каждой записью. Но этот процесс занимает слишком много времени, примерно 7-8 дней. Как я могу заставить его работать быстрее. Я использую pandas вместе с fuzzwuzzy для соотношения фазз.

...