Я пытаюсь проверить функцию R stringdist
из библиотеки stringdist
.
Используя пример
1 - stringdist('John J Smith', 'John Smith', method = 'jw', p = 0)
, возвращается 0.9444444
Где p = 0
подразумевает, что компонент Winkler в Jaro-Winkler не используется.
Я пытаюсь воспроизвести этот результат, используя формулу, показанную в Википедии и в этой документации просто не могу заставить мои ручные вычисления выровнять.
В моем примере ниже, есть 5 половинных транспозиций, и поэтому floor(5/2)
приводит к t = 2
.
Есть 10 соответствийсимволы, гарантирующие, что расстояние между совпадающими символами не превышает 5.

В результате получается:
