Получить наиболее частые термины из индекса Lucene - PullRequest
5 голосов
/ 12 мая 2010

Мне нужно извлечь термины с самыми высокими частотами из нескольких люценовых индексов , чтобы использовать их для некоторого семантического анализа.

Итак, я хочу получить, может быть, топ-30 наиболее часто встречающихся терминов (еще не определился с порогом, я буду анализировать результаты) и их количество на индекс. Я осознаю, что могу потерять некоторую точность из-за потенциально удаленных дубликатов, но сейчас, допустим, я в порядке с этим.

Таким образом, для предложенных решений (разумеется, может быть) скорость не важна, так как я бы делал статический анализ, я бы сделал акцент на простоте реализации, потому что я не настолько опытен в Lucene и Cant обернуть мои мысли вокруг некоторых понятий этого ..

Я не могу найти примеры кода из чего-то похожего, поэтому все конкретные советы (код, псевдокод, ссылки на примеры кода ...) Цените все советы!

Спасибо!

Ответы [ 2 ]

5 голосов
/ 12 мая 2010

Очень простой способ - использовать Люк . На вкладке «Обзор» есть кнопка «Показать главные термины», которую можно использовать для того, что вам нужно.

2 голосов
/ 12 мая 2010

Посмотрите на это: http://sujitpal.blogspot.com/2009/02/summarization-with-lucene.html

Класс на этой странице имеет метод computeTopTermQuery, который вы легко сможете модифицировать для работы с несколькими индексами.

...