Bambaleylo 26 февраля 2012 47

Дедупликация с скоринговой платформой / приложением / сервером на Java для работы с этапами ввода базы данных

Bambaleylo / 26 февраля 2012

Пожалуйста, предложите мне продукт Java (я бы предпочел с открытым исходным кодом), который делает:

дедупликация данных
Оценка дедупликации
позволяет настроить правила дедупликациии правила подсчета очков.

Пожалуйста, посмотрите пример:

У меня есть промежуточная база данных ввода с именем "INPUT_DB"
У меня есть таблица с именем "INPUT_PERSONS"
В этой таблице несколько полей:

ID (некоторый бессмысленный суррогатный первичный ключ)
FIRST_NAME
LAST_NAME
SECOND_NAME
BIRTH_DATE
PASSPORT_SERIES (PASSPORT_SERIES+ PASSPORT_NUM - уникальный идентификатор гражданина)
PASSPORT_NUM

Мне нужно просмотреть все записи в INPUT_PERSONS и найти дубликаты и совпадения.Необходимо создать несколько правил:

, если PASSPORT_SERIES + PASSPORT_NUM равно некоторой записи, это означает, что эти две записи являются дубликатами.Оценка для такой ситуации составляет 100 из 100
Если FIRST_NAME, LAST_NAME равны, но PASSPORT_SERIES + PASSPORT_NUM имеет один другой символ (например, опечатка), то эти записи являются возможными дубликатами, и их оценка составляет 90 из 100100.
И так далее ...

Можно ли найти какое-нибудь готовое решение и использовать его в качестве основы?

Ответы [ 2 ]

...