Я использую mahout для кластеризации текстовых документов, проиндексированных с помощью solr.
Я использовал поле «текст» в документе для формирования векторов. Затем я использовал драйвер k-means в mahout для кластеризации, а затем утилиту clusterdumper для вывода результатов.
У меня возникают трудности с пониманием результатов вывода из самосвала. Я мог видеть кластеры, сформированные с векторами терминов в этих кластерах.
Но как мне извлечь документы из этих кластеров. Я хочу, чтобы результатом были входные документы, появляющиеся в разных кластерах.