У меня есть несколько источников таблиц с личными данными, например:
SOURCE 1
ID, FIRST_NAME, LAST_NAME, FIELD1, ...
1, jhon, gates ...
SOURCE 2
ID, FIRST_NAME, LAST_NAME, ANOTHER_FIELD1, ...
1, jon, gate ...
SOURCE 3
ID, FIRST_NAME, LAST_NAME, ANOTHER_FIELD1, ...
2, jhon, ballmer ...
Итак, предполагая, что записи с идентификатором 1 из источников 1 и 2 являются одним и тем же человеком, моя проблема заключается в том, как определить, представляет ли запись в каждом источнике одно и то же лицо . Кроме того, убедитесь, что не все записи существуют во всех источниках. Все имена написаны на испанском языке, в основном.
В этом случае точное соответствие должно быть ослаблено, поскольку мы предполагаем, что источники данных не были строго проверены по отношению к официальному бюро идентификации страны. Также мы должны предположить, что опечатки являются общими , потому что природа процессов для сбора данных. Более того, количество записей составляет около 2 или 3 миллионов в каждом источнике ...
Наша команда думала о чем-то вроде этого: во-первых, заставить точное соответствие в выбранных полях, таких как ID NUMBER и NAMES, чтобы понять, насколько серьезной может быть проблема. Во-вторых, ослабьте критерии сопоставления и посчитайте, сколько записей можно сопоставить, но здесь возникает проблема: как сделать так, чтобы ослабить критерии сопоставления, не создавая слишком шума и не ограничивая слишком много?
Какой инструмент может быть более эффективным для обработки этого? Например, знаете ли вы о каком-то конкретном расширении в каком-либо механизме базы данных для поддержки этого соответствия?
Знаете ли вы об умных алгоритмах, таких как soundex для обработки этого приблизительного соответствия, но для испанских текстов?
Любая помощь будет оценена!
Спасибо.