У меня проблемы с FuzzyWuzzy's token_set_ratio
и partial_ratio
.
query_string = 'query string match'
sentence_string = 'This is the sentence in which I want my querystring to match'
По отдельности каждый токен в query_string
имеет partial_ratio
100
. Тем не менее, token_set_ratio
является только 44
в этом примере. Я не понимаю, почему это так, так как я думал, что token_set_ratio
берет partial_ratio
каждого токена? Это потому, что эти строки имеют существенно различную длину? Есть ли способ настроить FuzzyWuzzy так, чтобы приведенный выше пример соответствовал 100%?
Мое приложение по существу ищет короткие выражения из нескольких слов (1 - 5 слов) в больших объемах текста, поэтому я ' m не может ограничить длину большей строки.