Lucene numDocs и doqFreq для пользовательского класса сходства - PullRequest
1 голос
/ 05 апреля 2010

Я делаю заявление с Lucene (я нуб с ним) и сталкиваюсь с некоторыми проблемами. В моем приложении используется библиотека Lucene 2.4.0 с пользовательской реализацией similaraty (jar импортирован)

В моем приложении я вычисляю doqFreq и numDocs вручную (я добавляю значения всех индексов, а затем вычисляю глобальное значение, чтобы использовать его в каждом запросе), и я хочу использовать эти значения в пользовательской реализации сходства для рассчитать новый IDF.

Проблема в том, что я не знаю, как использовать (или отправить) новые значения doqFreq и numDocs из моего приложения в этой новой реализации similarty, поскольку я не хочу менять код lucene отдельно от этого дополнительного класса.

Есть предложения или примеры? Я читаю документы, но сейчас не знаю, как это сделать: s

Спасибо

1 Ответ

1 голос
/ 05 апреля 2010

Вы можете попробовать расширить IndexReader и переопределить IndexReader.docFreq () и IndexReader.numDocs (). В этом подтипе вы можете указать, что вы рассчитываете вручную. Я не уверен, есть ли другие компоненты Lucene, которые зависят от этих значений, так что вы можете осторожно перейти здесь.

...