Предложения по дедупликации данных - PullRequest
1 голос
/ 23 августа 2011

Я ищу программное обеспечение для дедупликации, совместимое с MS SQL Server. У меня есть довольно обширная и грязная таблица, в которой содержатся адреса со всего мира на разных языках. Таблица настроена для обработки дубликатов как родительских / дочерних записей, поэтому требуется некоторая функциональность для обработки совпадения (т.е. не просто удаление дубликата).

Редактировать: вот структура

ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City | StateProvinceCode | CountryCode | PhoneNumber

MasterID уникален для каждой записи.

ParentID содержит MasterID для родительской записи каждой записи, а родительская запись находится там, где MasterID = ParentID.

CountryCode - это двухбуквенный код страны ISO (не телефонный код).

1 Ответ

2 голосов
/ 23 августа 2011

Дубликаты адресов, как известно, трудно отследить.Существует около 10 действительных способов написать один адрес, что может привести к проблемам.

Тот факт, что у вас есть бизнес-правила, допускающие дублирование, иногда заставляет меня думать, что вам, возможно, будет лучше развернуть собственное программное обеспечение, чтобы найти недопустимые дубликаты и удалить их.

В прошлом я делал это с помощью адресов, передавая адрес через бесплатную службу геокодирования (например, Google Map API) и отыскивая точки, которые находятся в пределах определенного порога друг друга (10 футов иличто-то).На этом этапе вы можете определить, является ли он «недопустимым дубликатом», и удалить его.

Чтобы найти расстояния между координатами, я бы порекомендовал найти Расстояние по большому кругу .Удачи!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...