Я согласен с вами относительно Daitch-Mokotoff, Soundex предвзят, потому что первоначальные переписчики США хотели «американизировать» имена.
Может быть, поможет пример разницы:
Soundex ставит добавочную стоимость в начале слова - фактически он учитывает только первые 4 фонетических звука. Так что, хотя «Шмидт» и «Смит» будут совпадать, «Смит» и «Смит» не будут.
Алгоритм Левенштейна был бы лучше для поиска опечаток - одна или две пропущенные или замененные буквы дают высокую корреляцию, в то время как фонетическое воздействие этих пропущенных букв менее важно.
Не думаю, что и то и другое лучше, и я бы рассмотрел как дистанционный, так и фонетический алгоритмы, чтобы помочь пользователям исправить типизированный ввод.