Пожалуйста, предложите мне продукт Java (я бы предпочел с открытым исходным кодом), который делает:
- дедупликация данных
- Оценка дедупликации
- позволяет настроить правила дедупликациии правила подсчета очков.
Пожалуйста, посмотрите пример:
- У меня есть промежуточная база данных ввода с именем "INPUT_DB"
- У меня есть таблица с именем "INPUT_PERSONS"
В этой таблице несколько полей:
ID (некоторый бессмысленный суррогатный первичный ключ)
FIRST_NAME
LAST_NAME
SECOND_NAME
BIRTH_DATE
PASSPORT_SERIES (PASSPORT_SERIES+ PASSPORT_NUM - уникальный идентификатор гражданина)
PASSPORT_NUM
Мне нужно просмотреть все записи в INPUT_PERSONS и найти дубликаты и совпадения.Необходимо создать несколько правил:
- , если PASSPORT_SERIES + PASSPORT_NUM равно некоторой записи, это означает, что эти две записи являются дубликатами.Оценка для такой ситуации составляет 100 из 100
- Если FIRST_NAME, LAST_NAME равны, но PASSPORT_SERIES + PASSPORT_NUM имеет один другой символ (например, опечатка), то эти записи являются возможными дубликатами, и их оценка составляет 90 из 100100.
- И так далее ...
Можно ли найти какое-нибудь готовое решение и использовать его в качестве основы?