У меня есть база данных, в которой очень похожие строки в одной и той же таблице. Эти строки похожи, потому что они имеют почти равные значения столбца. Мне нужно объединить эти соответствующие строки в одну строку.
Например, эти два пользователя (u1 и u2) должны быть интегрированы:
u1 = User(name = "William Henry Gates III",
age = 55,
nationality = "american",
alma_mater = "Harvard Univesity")
u2 = User(name: "William Henry 'Bill' Gates III",
age: 55,
nationality: "America",
alma_mater: "Harvard U.")
Я подумываю об использовании некоторых редактируемых расстояний и основанных техник. Другие алгоритмы и методы предложения? Любые полезные библиотеки для использования (желательно на Python или Java)?