Я участвовал в проекте по очистке имен и адресов для крупного финансового учреждения. Мы достигли показателя успешности автоматически около 98,4%, но, к сожалению, это все еще оставило около 150 000 несоответствий.
Способ, которым мы атаковали проблему, заключался в том, чтобы (со временем) создать базу правил для типов ошибок, которые могут возникнуть, и расширить нечеткость логики для охвата идентифицированных классов ошибок.
Значительный объем данных действительно может быть выполнен с помощью почтовых индексов (Великобритания), номера дома и / или названия. В Великобритании нечеткость может быть введена при рассмотрении первой части почтового индекса - которая определяет широкую область. Мне не ясно, относится ли это к почтовым индексам.
Однако этот подход плохо работает с адресами, которые выходят за рамки обычного запуска - мой собственный адрес является примером; Я живу на лодке, и, как следствие, у меня есть несколько дополнительных адресов для обеспечения правильной адресации.
Подобные аномалии всегда требуют ручного вмешательства.
Между прочим, ваше утверждение о том, что объединять / объединять людей, чьи имена «первый-последний» совпадают по одному и тому же адресу), не составляет никакого труда, должно быть оспорено. Самые сложные случаи, которые у нас были при очистке данных, были именно там, где два человека (например, отец и сын) с одинаковыми именами жили по одному и тому же адресу. Точно так же, если кто-то с таким же именем купил недвижимость (что происходит), то снова возникают проблемы с «повторным дублированием».