Elasticsearch фраза freq оценка без IDF - PullRequest
0 голосов
/ 08 ноября 2018

Мне нужен пользовательский счет, который представляет собой комбинацию частоты фраз (то есть количества вхождений «Джона Хобса» - в том же порядке, рядом друг с другом) и пользовательского счета, который вычисляется при индексации.

В основном мне нужно отключить IDF от оценки по умолчанию, так как она приносит дополнительную информацию, которая имеет различное (не контролируемое) значение для каждого термина и является недетерминированной из-за осколков. Я знаю, что могу использовать оценку функции, но мне нужно каким-то образом получить значение частоты фразы и без необходимости переиндексации.

  1. Вероятно, нет способа отключить IDF в сходствах по умолчанию (которые можно настраивать динамически без переиндексации), верно?

  2. Я могу определить пользовательское подобие сценария , но оценка фактически вычисляется для каждого термина и суммируется (для «Джона Хобса» она рассчитывается дважды, для «Джона Уокера Хобса» - три раза). и т. д.), и я не знаю, как на самом деле получить количество терминов запроса в сценарии.

  3. Я могу написать Пользовательский плагин . Он должен работать без переиндексации, но он работает только на уровне терминов (я могу получить частоту терминов). Как я могу вычислить частоту фразы? Я не могу получить информацию о местоположении. Кроме того, я могу получить доступ к своему пользовательскому баллу, определенному при индексации через поиск, а как насчет производительности? Я подозреваю, что производительность будет не очень хорошей.

Буду рад любому ответу на любой вопрос :) Большое спасибо

...