У меня есть краевой токенайзер Ngram, который делает токены следующим образом:
- x sport => xs sp spo spor sport
- sport active => s sp sp spor sport sport a ac act acti activ active
- xin xin sro => x xi xin x xi xin sr sro
Если я отправлю запрос на x sport , он создаст токены, как указано выше.Проблема заключается в том, что этот запрос включает в себя xin xin sro и не включает спортивные активные (в первых 20) предметы.Как это возможно, что Синь-Синь лучше соответствует спортивной фразе х, чем спортивному.Я действительно отсутствует.Пожалуйста помоги.Благодарю.