Мне нужно извлечь термины с самыми высокими частотами из нескольких люценовых индексов , чтобы использовать их для некоторого семантического анализа.
Итак, я хочу получить, может быть, топ-30 наиболее часто встречающихся терминов (еще не определился с порогом, я буду анализировать результаты) и их количество на индекс. Я осознаю, что могу потерять некоторую точность из-за потенциально удаленных дубликатов, но сейчас, допустим, я в порядке с этим.
Таким образом, для предложенных решений (разумеется, может быть) скорость не важна, так как я бы делал статический анализ, я бы сделал акцент на простоте реализации, потому что я не настолько опытен в Lucene и Cant обернуть мои мысли вокруг некоторых понятий этого ..
Я не могу найти примеры кода из чего-то похожего, поэтому все конкретные советы (код, псевдокод, ссылки на примеры кода ...) Цените все советы!
Спасибо!