РЕДАКТИРОВАТЬ: Плохой пример, который я дал.Мой вариант использования был на самом деле китайскими иероглифами, то есть соответствием фразы "我 我" в "我 我 我 我 我 我 我 我 我 我".Поэтому для тех, кто не знаком с китайской поисковой системой, вопрос на самом деле заключается в поиске «bb» в «bbbbbbbbbb», а НЕ «bb» в «bbbbbbbbbb». Я также отредактировал заголовок, чтобы избежать путаницы.
Бонусный вопрос: с какой частотой вместо "max_expansions = 4" используется вместо "max_expansions = 4"?
оригинальный пост: Предположим, что ключевое слово для поиска - "bb", документ - "bbbbbbbbbb" (10 b).Тип анализируется, и, скажем, «b» - это «атомарный термин», который индексируется.
Я представляю, что документ представлен внутри как-то так: {'b': [0,1,2,3,4,5,6,7,8,9], метаданные: {...}} где числа являются местоположениями термина «b».Поправь меня, если я ошибаюсь.
Термин частота tf (t в d) = sqrt (частота) в соответствии с эластичной направляющей.(https://www.elastic.co/guide/en/elasticsearch/guide/current/scoring-theory.html#tf) Итак, когда "bb" - это фраза соответствует против документа с 10 b, какая частота, это 5 или 9?