Проблема интеграции данных - Как интегрировать похожие объекты - PullRequest
0 голосов
/ 25 декабря 2010

У меня есть база данных, в которой очень похожие строки в одной и той же таблице. Эти строки похожи, потому что они имеют почти равные значения столбца. Мне нужно объединить эти соответствующие строки в одну строку.

Например, эти два пользователя (u1 и u2) должны быть интегрированы:

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

Я подумываю об использовании некоторых редактируемых расстояний и основанных техник. Другие алгоритмы и методы предложения? Любые полезные библиотеки для использования (желательно на Python или Java)?

1 Ответ

3 голосов
/ 25 декабря 2010

Рассматривается что-то вроде Уточнить ?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...