Какую логику использовать для объединения / объединения сущностей с несколькими лицами в одно и то же?(плотно, но достаточно нечетко, чтобы расширить спички) - PullRequest
0 голосов
/ 19 октября 2010

У меня есть несколько экземпляров людей, которые часто являются одним и тем же человеком. Если адрес First-Last совпадает с тем же адресом, объединять / объединять их нетрудно.

Однако из-за несоответствий при вводе данных должен быть способ немного отклониться от точности. Я думаю, что индустрия кредитных карт делает это немного: почтовый индекс плюс номер улицы или название улицы? ... что-то в этом роде.

Чтобы подтвердить соответствие, я очистил адресные строки, стараясь сделать их как можно более стандартными ("Hwy" -> "Шоссе" и т. Д.).

Мне нужно что-то, что по-прежнему будет сопоставлять записи, которое выглядело бы очевидным для человека, просто взглянув на него, но не имело точно совпадающих данных.

Вот моя первоначальная мысль: объединить строку, состоящую из следующего:

First Initial
LEFT8 of the LastName (allows inconsistent endings, such as "Esq." or "CPA")
LEFT3 of Zip
Street Number
LEFT8 of the StreetName (not Addr1 -- "Oak" for "8 N Oak Street")

Я что-то здесь упустил? Я думаю, что сделал его достаточно свободным, чтобы преодолеть обычные несоответствия при вводе данных, но достаточно плотным, чтобы избежать неправильных совпадений.

Ответы [ 2 ]

1 голос
/ 07 февраля 2012

Крис А., вы рассматривали возможность использования официальных экспертных систем для выполнения этой задачи?Примечательно, что, как вы находите, стандартизация адресов, чтобы вы могли эффективно выполнять их итерацию, становится очень сложной и очень быстрой.На SmartyStreets (там, где я работаю), это наше бизнес-ядро: реализация определенных алгоритмов, которые выполняют эту задачу.

Это может не прямой ответ на ваш точныйвопрос, но это важный шаг на пути к тому, чтобы при разработке нечеткого поискового запроса у вас были хорошие данные для начала.Другими словами, как показал Крис У. в своем ответе, даже после нечеткого запроса многое остается желать.

Поэтому я бы предложил сначала действительно стандартизировать все адреса(с учётом адресных «перегрузок» как таковых, два адреса выглядят совершенно разными, но это один и тот же адрес).Для адресов в США вы можете воспользоваться службой обработки списков (например, CASS-Certified Scrubbing ; исследование по вашему выбору).Хороший пометит дубликаты для вас, а затем позволит вам действовать.После того, как адреса были нормализованы и помечены, вы можете намного быстрее отсеять точные дубликаты на основе определения вашего бизнеса (по фамилии и т. Д.).В этот момент вы выполняете нечеткий поиск по всем адресам, кроме , которые являются самыми хитрыми, и у вас уже есть хорошее представление о том, что может быть дубликатом.

1 голос
/ 19 октября 2010

Я участвовал в проекте по очистке имен и адресов для крупного финансового учреждения. Мы достигли показателя успешности автоматически около 98,4%, но, к сожалению, это все еще оставило около 150 000 несоответствий.

Способ, которым мы атаковали проблему, заключался в том, чтобы (со временем) создать базу правил для типов ошибок, которые могут возникнуть, и расширить нечеткость логики для охвата идентифицированных классов ошибок.

Значительный объем данных действительно может быть выполнен с помощью почтовых индексов (Великобритания), номера дома и / или названия. В Великобритании нечеткость может быть введена при рассмотрении первой части почтового индекса - которая определяет широкую область. Мне не ясно, относится ли это к почтовым индексам.

Однако этот подход плохо работает с адресами, которые выходят за рамки обычного запуска - мой собственный адрес является примером; Я живу на лодке, и, как следствие, у меня есть несколько дополнительных адресов для обеспечения правильной адресации.

Подобные аномалии всегда требуют ручного вмешательства.

Между прочим, ваше утверждение о том, что объединять / объединять людей, чьи имена «первый-последний» совпадают по одному и тому же адресу), не составляет никакого труда, должно быть оспорено. Самые сложные случаи, которые у нас были при очистке данных, были именно там, где два человека (например, отец и сын) с одинаковыми именами жили по одному и тому же адресу. Точно так же, если кто-то с таким же именем купил недвижимость (что происходит), то снова возникают проблемы с «повторным дублированием».

...