Добавить частоту терминов в индекс Lucene - PullRequest
0 голосов
/ 10 ноября 2011

Насколько я понимаю, пример демонстрационного IndexFiles в каталоге вкладов Lucene создаст инвертированный индекс из терминов документа в соответствующие пути к документам.

Мне было интересно, есть ли способ добавить термин частотав каждом документе также указатель.

Другими словами (если я правильно понимаю) исходное сопоставление: термин -> список (путь к документам) термин -> список (путь к документу,частота термин в этом документе)

Есть ли способ достичь этого?В настоящее время я подсчитываю частоту терминов на лету, открывая каждый путь к документу в java, а затем подсчитываю термины.Существуют огромные накладные расходы, поскольку потенциально могут открываться и обрабатываться сотни документов.

1 Ответ

0 голосов
/ 11 ноября 2011

Lucene обычно хранит термины частоты, а также может хранить смещения и позиции терминов. Информация о частоте хранится в файле с расширением «frq», поэтому, если у вас есть это в вашей индексной папке, вы сохраняете термин частоты.

Вы не сказали, почему вас волнует или что вы хотите делать с частотами. Обычно Lucene использует их для вычисления оценок релевантности для ваших запросов. Если вам нужны необработанные частоты, в этом другом вопросе обсуждается, как их получить: Получить термины частоты в Lucene

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...