То, что вы пытаетесь сделать, очень похоже на задачу, которую я изложил в этот ответ .
Короче говоря, вам нужно создать сводку для каждого документа, который вы можете использовать в качестве запроса для сравнения его с любым другим. Сводка документа может быть такой же простой, как и верхние N терминов в этом документе (исключая стоп-слова). Вы можете сгенерировать лучшие N терминов из документа Lucene довольно легко, без использования сторонних инструментов, для этого есть множество примеров SO и web .