Question

Может ли кто-нибудь посоветовать мне лучший способ получить хиты (ни одного вхождения) слова на документ в Lucene? ..

Yuval F · Answer 1 · 21 декабря 2009

Lucene использует полевой, а не основанный на документе индекс. Чтобы рассчитать срок на документ:

Перебирать документы, используя IndexReader.document () и isDeleted ().
В документе d итерируйте поля, используя Document.getFields () .
Для каждого поля f получить термины, используя getTermFreqVector () .
Перейдите через вектор термов и суммируйте частоты по терминам.
Сумма частот терминов на поле даст вам вектор частоты термина документа.

A. Coady · Answer 2 · 18 декабря 2009

SpanTermQuery.getSpans даст перечисление документов и место, где появляются термины. Документы отсортированы, так что вы можете просто посчитать, сколько раз каждый документ появляется, игнорируя информацию о положении.

Получить количество поисковых запросов (количество вхождений) на документ в Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить количество поисковых запросов (количество вхождений) на документ в Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов