Lucene: выведите подробные данные, добавив в них ИК-информацию - PullRequest
2 голосов
/ 23 февраля 2011

Мне нужно обработать базу данных, чтобы добавить мета-информацию, такую ​​как веса td-idf, в термины документов.

Последовательно мне нужно создавать пары документов с мерами сходства, такими как косинусное сходство td-idf и т. Д. *

Я планирую использовать Apache Lucene для этой задачи. На самом деле я не заинтересован в поиске или выполнении запроса, но в индексировании данных и их обработке для генерации выходного файла с вышеупомянутыми парами документов и показателями сходства. Следующим шагом будет передача этих результатов в классификатор Weka.

Могу ли я легко сделать это с Lucene? спасибо

1 Ответ

1 голос
/ 23 февраля 2011

Попробуйте Интеграция Apache Mahout с Apache Lucene и Solr . Замените места с надписью "Mahout" на "Weka". Удачи.

...