Каково истинное значение слова «ранг» в Lucene при взгляде Люка? - PullRequest
1 голос
/ 02 июля 2010

Я использую Luke для просмотра индекса Lucene.Есть столбец с именем «Ранг».Каково реальное значение этого?Я предполагаю, что Ранг означает число вхождений, а большее число Ранг означает, что термин является более значимым.Но я не понимаю, что это полнотекстовый поиск.Если я буду искать «яблоко», будет возвращен весь индекс «яблока», что не имеет значения, что имеет ранг «яблоко».Я неправильно понимаю?Если нет, то что в действительности используется для столбца «Ранг»?

Когда я проверяю индекс, кажется, что там довольно много «шума», например, у символа «о» очень высокий номер ранга.Значит ли это, что этот индекс плох?Как мне это исправить?Заранее спасибо.

1 Ответ

1 голос
/ 02 июля 2010

«Ранг» - это частота термина в поле.Это не значит, что это более важно.На самом деле, наименее частые термины часто являются наиболее значимыми в индексе.Но знание наиболее частых терминов вашего индекса иногда важно для целей анализа или отладки (см., Например, этот вопрос ).

Тот факт, что у вас много терминов, таких как 'o'не означает, что ваш индекс плохой.Проверьте токенизатор и анализатор, используемые для индексации.Какой-то токенизатор снимает слова с знака препинания.Некоторые анализаторы будут содержать слова, и часто они будут давать однобуквенные термины.Есть много причин, которые могут объяснить наличие однобуквенных терминов.

Если вы видите много нежелательных терминов в своем индексе, вы можете рассмотреть возможность использования фильтра стоп-слов во время индекса.Lucene предоставляет для этого функциональные возможности.

...