Question

Мне нужно обработать базу данных, чтобы добавить мета-информацию, такую как веса td-idf, в термины документов.

Последовательно мне нужно создавать пары документов с мерами сходства, такими как косинусное сходство td-idf и т. Д. *

Я планирую использовать Apache Lucene для этой задачи. На самом деле я не заинтересован в поиске или выполнении запроса, но в индексировании данных и их обработке для генерации выходного файла с вышеупомянутыми парами документов и показателями сходства. Следующим шагом будет передача этих результатов в классификатор Weka.

Могу ли я легко сделать это с Lucene? спасибо

Yuval F · Answer 1 · 23 февраля 2011

Попробуйте Интеграция Apache Mahout с Apache Lucene и Solr . Замените места с надписью "Mahout" на "Weka". Удачи.

Lucene: выведите подробные данные, добавив в них ИК-информацию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Lucene: выведите подробные данные, добавив в них ИК-информацию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы