«Ранг» - это частота термина в поле.Это не значит, что это более важно.На самом деле, наименее частые термины часто являются наиболее значимыми в индексе.Но знание наиболее частых терминов вашего индекса иногда важно для целей анализа или отладки (см., Например, этот вопрос ).
Тот факт, что у вас много терминов, таких как 'o'не означает, что ваш индекс плохой.Проверьте токенизатор и анализатор, используемые для индексации.Какой-то токенизатор снимает слова с знака препинания.Некоторые анализаторы будут содержать слова, и часто они будут давать однобуквенные термины.Есть много причин, которые могут объяснить наличие однобуквенных терминов.
Если вы видите много нежелательных терминов в своем индексе, вы можете рассмотреть возможность использования фильтра стоп-слов во время индекса.Lucene предоставляет для этого функциональные возможности.