Очевидно, что почти дубликаты и дубликаты - это две совершенно разные вещи.Найти и устранить дуплики довольно легко.Найти дупла намного сложнее!В SQL есть оператор «Мне нравится», но он не обнаружит различий, таких как «Microsoft» и «Micorsoft».Посмотрите на ссылку ниже для одного возможного решения.
http://www.accessmvp.com/TomVanStiphout/Simil.htm
Если это не работает для вас, вам нужно будет рассмотреть альтернативу, и, возможно, Python мог бы сделатьэто для вас.Если у вас есть только несколько таблиц с «проблемами», вы можете экспортировать затронутые таблицы, очистить их с помощью другой технологии, такой как Python, а затем импортировать «очищенные» наборы данных.См. Ссылку ниже для некоторых идей.
https://bergvca.github.io/2017/10/14/super-fast-string-matching.html
Кроме того, R имеет некоторые возможности для поиска близких совпадений, и, как и в Python, R полностью бесплатен.См. Ссылку ниже для некоторых дополнительных идей о том, как действовать.
https://github.com/ColinFay/tidystringdist
Я не уверен Доступ к лучшему инструменту для такого рода вещей, но с открытым разумом,и немного усилий, вы определенно можете делать то, что хотите.