SOUNDEX действительно ориентирован на английский язык. Двумя другими, которые принимают во внимание более широкий спектр фонетических различий, являются: двойной метафон и NYSIIS .
Они производят кодировки в гораздо большее возможное пространство, чем SOUNDEX. Double Metaphone, в частности, включает сокращения с явной целью обработки альтернативных произношений, основанных на большем количестве языков, чем английский.
Я недавно провел презентацию по нечеткому сопоставлению строк, слайды могут быть полезны.