Меры сходства должны основываться на запросе .то есть вы запрашиваете набор документов Lucene и возвращаете набор документов с относительными баллами.
Если вы хотите сравнить каждый документ с любым другим (это правильно? трудно определить из вопроса), тогданеобходимо использовать функцию каждого документа в качестве основы для запросов.
Например, вы можете извлечь верхние N терминов (по частоте, исключая стоп-слова) из каждого документа.Если у вас есть X документов, то у вас будет X запросов.Затем вы выполняете каждый из ваших X-запросов к индексу и получаете относительное сходство каждого документа со всеми остальными.Это матрица, которую вы можете использовать для классификации.
Другой альтернативой может быть использование заголовка или краткого изложения каждого документа в качестве основы для запроса (опять же, за исключением остановок).