Дедупликация с скоринговой платформой / приложением / сервером на Java для работы с этапами ввода базы данных - PullRequest
0 голосов
/ 26 февраля 2012

Пожалуйста, предложите мне продукт Java (я бы предпочел с открытым исходным кодом), который делает:

  1. дедупликация данных
  2. Оценка дедупликации
  3. позволяет настроить правила дедупликациии правила подсчета очков.

Пожалуйста, посмотрите пример:

  1. У меня есть промежуточная база данных ввода с именем "INPUT_DB"
  2. У меня есть таблица с именем "INPUT_PERSONS"
  3. В этой таблице несколько полей:

    ID (некоторый бессмысленный суррогатный первичный ключ)
    FIRST_NAME
    LAST_NAME
    SECOND_NAME
    BIRTH_DATE
    PASSPORT_SERIES (PASSPORT_SERIES+ PASSPORT_NUM - уникальный идентификатор гражданина)
    PASSPORT_NUM

Мне нужно просмотреть все записи в INPUT_PERSONS и найти дубликаты и совпадения.Необходимо создать несколько правил:

  1. , если PASSPORT_SERIES + PASSPORT_NUM равно некоторой записи, это означает, что эти две записи являются дубликатами.Оценка для такой ситуации составляет 100 из 100
  2. Если FIRST_NAME, LAST_NAME равны, но PASSPORT_SERIES + PASSPORT_NUM имеет один другой символ (например, опечатка), то эти записи являются возможными дубликатами, и их оценка составляет 90 из 100100.
  3. И так далее ...

Можно ли найти какое-нибудь готовое решение и использовать его в качестве основы?

Ответы [ 2 ]

1 голос
/ 26 февраля 2012

Я делал это в прошлом и основал его на алгоритме fallEgi-sunter. См. Этот вопрос: Существует ли реализация с открытым исходным кодом для Fellegi-Sunter?

0 голосов
/ 20 апреля 2017

Проект DUKE может удовлетворить ваше требование: https://github.com/larsga/Duke

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...