Чтобы выполнить простой алгоритм кластеризации для результатов, которые я получаю из Lucene, мне нужно вычислить сходство косинусов между двумя документами в Lucene, мне также нужно иметь возможность создать документ центроида для представления центроида каждого кластера.
Все, что я могу придумать, - это построить свою собственную модель векторного пространства с взвешиванием tf-idf, используя для этого частоты TermFreqVectors и Total Term.
Мой вопрос: это неэффективный подход, есть ли лучший способ сделать это?
Это кажется немного неясным, поэтому любые предложения о том, как я могу улучшить свой вопрос, также приветствуются.