Я хочу найти возможные повторяющиеся записи-кандидаты в большой базе данных, соответствующие таким полям, как COMPANYNAME и ADDRESSLINE1
Пример:
Для записи со следующим ИМЯ КОМПАНИИ:
Я бы хотел, чтобы мой запрос выдавал другие записи с такими значениями COMPANYNAME, как возможные ошибки:
- "Acme Corporation"
- "Акме, Инкорпорейтед"
- "Acme"
Я знаю, как выполнять объединения, коррелированные подзапросы и т. Д., Чтобы выполнять механику извлечения набора данных, который я хочу. И я знаю, что здесь уже упоминалось. Мне интересно услышать мысли о лучшем способе нечеткого поиска - следует ли мне использовать полнотекстовое индексирование или функцию soundex или что-то еще, что мне неизвестно для этого процесса? (Я использую SQL Server 2005)
Любая помощь приветствуется!