Question

Мне нужно извлечь термины с самыми высокими частотами из нескольких люценовых индексов , чтобы использовать их для некоторого семантического анализа.

Итак, я хочу получить, может быть, топ-30 наиболее часто встречающихся терминов (еще не определился с порогом, я буду анализировать результаты) и их количество на индекс. Я осознаю, что могу потерять некоторую точность из-за потенциально удаленных дубликатов, но сейчас, допустим, я в порядке с этим.

Таким образом, для предложенных решений (разумеется, может быть) скорость не важна, так как я бы делал статический анализ, я бы сделал акцент на простоте реализации, потому что я не настолько опытен в Lucene и Cant обернуть мои мысли вокруг некоторых понятий этого ..

Я не могу найти примеры кода из чего-то похожего, поэтому все конкретные советы (код, псевдокод, ссылки на примеры кода ...) Цените все советы!

Спасибо!

Pascal Dimassimo · Answer 1 · 12 мая 2010

Очень простой способ - использовать Люк . На вкладке «Обзор» есть кнопка «Показать главные термины», которую можно использовать для того, что вам нужно.

mindas · Answer 2 · 12 мая 2010

Посмотрите на это: http://sujitpal.blogspot.com/2009/02/summarization-with-lucene.html

Класс на этой странице имеет метод computeTopTermQuery, который вы легко сможете модифицировать для работы с несколькими индексами.

Получить наиболее частые термины из индекса Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить наиболее частые термины из индекса Lucene

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы