Частота срока в документе - PullRequest
0 голосов
/ 12 марта 2012

Я проиндексировал набор текстовых файлов по lucene. Также я сохранил TermVectors. Но я хочу знать частоту некоторых терминов в некоторых документах в O (1). Возможно ли это?

Я имею в виду, есть ли функция (Term term , Integer docNum ) , которая возвращает частоту term в документе docNum ?

1 Ответ

1 голос
/ 30 марта 2012

Нет готовой функции, вам придется написать некоторый код. Сначала используйте IndexReader.termDocs (термин). Это даст вам экземпляр TermDocs, который, как правило, Lucene, похож на объект типа Cursor. Теперь вызовите TermDocs.skipTo (int), затем TermDocs.next (), затем TermDocs.freq (). Если вы с самого начала уверены, что ваш документ содержит ваш термин, это оно; в противном случае после каждого шага проверяйте, можете ли вы продолжить. Javadocs хорошо написаны для каждого этапа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...