Вычисление релевантности и сходства в Apache Lucene 7.5.x? - PullRequest
0 голосов
/ 29 октября 2018

В чем разница между TFIDFSородственным, стандартным сходством и сладким сходством в Lucene 7.5.1?

Как мы можем реализовать BM25F в Lucene?

1 Ответ

0 голосов
/ 29 октября 2018
  • TFIDFSородство - Абстрактный базовый класс для сходств TF-IDF. Довольно простая реализация tf-idf. Точный алгоритм хорошо документирован: TFIDFSородство

  • Похожесть по умолчанию - больше не вещь. Устаревший в 5.0, удаленный в 6.0.

  • Классическое сходство - старое сходство по умолчанию. Реализация сходства TFIDFS. Добавляет базовые расчеты для tf, idf, норм длины и кодирования / декодирования норм и т. Д.

  • SweetSpotShapsity - альтернативная реализация TFIDFSородственность. Расширяет классическое сходство, в первую очередь изменяет способ вычисления норм длины.

  • BM25Shogity - текущая реализация подобия по умолчанию. Реализация Okapi BM25.

Что касается BM25F, не в курсе его реализации, из коробки. Вы, вероятно, захотите изменить BM25Shapsity в соответствии с этой целью. Эта статья: BM25F в Lucene с BlendedTermQuery может быть полезна.

...