Связывание записей Python, нечеткое совпадение и дедупликация - PullRequest
0 голосов
/ 09 мая 2018

У меня есть 3 набора данных клиентов с 7 столбцами.

CustomerName

Адрес

Телефон

StoreName

Мобильный

Долгота

Широта

каждый набор данных имеет 13000-18000 записей. Я пытаюсь нечеткое совпадение для дедупликации между ними. мои столбцы набора данных не имеют одинакового веса в этом сопоставлении. Как я могу справиться с этим ???? Вы знаете хорошую библиотеку для моего дела?

1 Ответ

0 голосов
/ 17 января 2019

Я думаю, что библиотека Recordlinkage подойдет для ваших целей

вы можете использовать для объекта сравнения, требуя различные виды совпадений:

compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')

, затем, определив соответствие, вы можете настроить, как вы хотите, чтобы результаты, т.е. если вы хотите, чтобы 2 функции были сопоставлены по крайней мере

features = compare_cl.compute(pairs, df)    
matches = features[features.sum(axis=1) > 3]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...