Question

У меня есть 3 набора данных клиентов с 7 столбцами.

CustomerName

Адрес

Телефон

StoreName

Мобильный

Долгота

Широта

каждый набор данных имеет 13000-18000 записей. Я пытаюсь нечеткое совпадение для дедупликации между ними. мои столбцы набора данных не имеют одинакового веса в этом сопоставлении. Как я могу справиться с этим ???? Вы знаете хорошую библиотеку для моего дела?

Gianluca Tarasconi · Answer 1 · 17 января 2019

Я думаю, что библиотека Recordlinkage подойдет для ваших целей

вы можете использовать для объекта сравнения, требуя различные виды совпадений:

compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')

, затем, определив соответствие, вы можете настроить, как вы хотите, чтобы результаты, т.е. если вы хотите, чтобы 2 функции были сопоставлены по крайней мере

features = compare_cl.compute(pairs, df)    
matches = features[features.sum(axis=1) > 3]

Связывание записей Python, нечеткое совпадение и дедупликация

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Связывание записей Python, нечеткое совпадение и дедупликация

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы