Ошибки двойного метафона - PullRequest
0 голосов
/ 23 октября 2008

Я использую Lawrence Philips Double-Metaphone алгоритм с большим успехом, но я нашел странный «неожиданный результат» для некоторых комбинаций.

Есть ли у кого-то еще дополнения или изменения в алгоритме для других его частей, которыми он не против поделиться, или просто найденные комбинации, которые не работают должным образом.

например. У меня были проблемы между:

  • Пишилл и Бушли. (оба соответствуют PXL)
  • Роклифф и Рокклифф (РКЛФ и РККЛ)

Ответы [ 2 ]

5 голосов
/ 23 октября 2008

Все схемы Soundex, Metaphone и варианты иногда дают результаты, которые не идентичны ожидаемым. Это неизбежно - их можно рассматривать как более или менее простые алгоритмы хеширования со специальными свойствами сохранения информации, и иногда они будут вызывать коллизии, когда вы этого не хотите, и иногда будут вызывать различия, если вы предпочитаете, чтобы они этого не делали .

Один из возможных способов улучшить ситуацию - использовать «кольца синонимов». Это в основном создает списки слов, которые следует рассматривать как синонимы, независимо от написания. Я столкнулся с ними в контексте сопоставления имен. Например, варианты на чаудри включены:

Chaudary CHAUDERI CHAUDERY CHAUDHARY CHAUDHERI CHAUDHERY Чаудри Чоудхури Чоудхури Chaudhury CHAUDHY Шодре Чаудри Chaudry CHAUDURI CHAWDHARY CHAWDHRY CHAWDHURY CHDRY CHODARY CHODHARI CHODHOURY CHODHRY CHODREY CHODRY CHODURY CHOUDARI Choudary CHOUDERY CHOUDHARI Чудхари CHOUDHERY CHOUDHOURY Choudhri Choudhry Чоудхури Чоудхури CHOUDREY Чоудри Choudry CHOUDURY CHOUWDHRY CHOWDARI Chowdary CHOWDHARY CHOWDHERY CHOWDHRI Chowdhry Chowdhuri CHOWDHURRYY ЧОУДХУРИ CHOWDORY CHOWDRAY CHOWDREY CHOWDRI CHOWDRURY CHOWDRY CHOWDURI Чоудури CHUDARY CHUDHRY CHUDORY COWDHURY

0 голосов
/ 13 декабря 2008

обычный метафон возвращает разницу между Пишилл и Бушли

Peashill PXL Bushley BXL

...