Таблица A содержит записи с дублирующимися объектами с тонкими вариациями строк. Не существует уникального ключа, который бы однозначно идентифицировал сущность. Поле «ID» идентифицирует запись внутри таблицы, но не сам объект.
TABLE A
--------------
ID;SomeString
1;something1
2;something2
3;something3
При использовании программного обеспечения нечеткого сопоставления таблица A нечетко сопоставляется с самим собой, чтобы обнаружить дублирующиеся записи. Так создается таблица поиска, которая имеет два столбца: ID1 и ID2, представляющие идентификаторы совпадающих записей из таблицы A.
TABLE B
---------
ID1;ID2
1;2
1;3
2;1
2;3
3;1
3;2
Результатом дедупликации будет удаление записей 2 и 3 из таблицы A. Таким образом, будет сохранена только первая запись.
TABLE A
--------------
ID;SomeString
1;something1
Есть ли способ выполнить такую дедупликацию нечетких совпадений таблиц от A до SQL, используя таблицу B в качестве таблицы поиска нечетких совпадений для идентифицированных повторяющихся записей?
Чтобы уточнить, я не спрашиваю, как сделать нечеткое совпадение или идентифицировать дубликаты, это уже сделано, и результаты приведены в таблице B. Я спрашиваю, как выполнить удаление дубликатов (и сохранить одну запись на идентифицированные дублирующиеся записи). группа), в соответствии с уже идентифицированными парами повторяющихся записей (несколько пар повторяющихся записей на одну и ту же сущность).