Lucene.NET: получение всех терминов, используемых в конкретном документе - PullRequest
4 голосов
/ 09 марта 2010

Есть ли способ пройти через все условия, относящиеся к определенному документу в индексе Lucene.NET?

По сути, я хочу иметь возможность извлечь документ из индекса на основе его идентификатора, а затем найти частоту, с которой каждый термин используется в этом документе. Кто-нибудь знает способ сделать это?

Я могу найти количество документов, соответствующих определенному сроку, но не условий, содержащихся в конкретном документе.

Большое спасибо,

Тим

1 Ответ

3 голосов
/ 09 марта 2010

В Lucene Java, по крайней мере, одна из опций при индексации документа хранит термин вектор частоты. Термин частотный вектор - это просто список всех терминов в данном поле документа, и как часто использовался каждый из этих терминов. Получение вектора частоты термина во время выполнения включает в себя вызов метода в IndexReader с идентификатором Lucene рассматриваемого документа.

...