Мне нужно обработать базу данных, чтобы добавить мета-информацию, такую как веса td-idf, в термины документов.
Последовательно мне нужно создавать пары документов с мерами сходства, такими как косинусное сходство td-idf и т. Д. *
Я планирую использовать Apache Lucene для этой задачи. На самом деле я не заинтересован в поиске или выполнении запроса, но в индексировании данных и их обработке для генерации выходного файла с вышеупомянутыми парами документов и показателями сходства. Следующим шагом будет передача этих результатов в классификатор Weka.
Могу ли я легко сделать это с Lucene?
спасибо