Ручной расчет расстояния Джаро - PullRequest
0 голосов
/ 03 мая 2019

Я пытаюсь проверить функцию R stringdist из библиотеки stringdist.

Используя пример

1 - stringdist('John J Smith', 'John Smith', method = 'jw', p = 0), возвращается 0.9444444

Где p = 0 подразумевает, что компонент Winkler в Jaro-Winkler не используется.

Я пытаюсь воспроизвести этот результат, используя формулу, показанную в Википедии и в этой документации просто не могу заставить мои ручные вычисления выровнять.

В моем примере ниже, есть 5 половинных транспозиций, и поэтому floor(5/2) приводит к t = 2.

Есть 10 соответствийсимволы, гарантирующие, что расстояние между совпадающими символами не превышает 5.

enter image description here

В результате получается:

enter image description here

...