Python: FuzzyWuzzy token_set_ratio дает неожиданные результаты - PullRequest
0 голосов
/ 30 января 2020

У меня проблемы с FuzzyWuzzy's token_set_ratio и partial_ratio.

query_string    = 'query string match'
sentence_string = 'This is the sentence in which I want my querystring to match'

По отдельности каждый токен в query_string имеет partial_ratio 100. Тем не менее, token_set_ratio является только 44 в этом примере. Я не понимаю, почему это так, так как я думал, что token_set_ratio берет partial_ratio каждого токена? Это потому, что эти строки имеют существенно различную длину? Есть ли способ настроить FuzzyWuzzy так, чтобы приведенный выше пример соответствовал 100%?

Мое приложение по существу ищет короткие выражения из нескольких слов (1 - 5 слов) в больших объемах текста, поэтому я ' m не может ограничить длину большей строки.

...