Представлять документ в вектор Lucene. - PullRequest
1 голос
/ 30 июля 2011

Я хочу построить вектор документа для категоризации текста SVM.Я проиндексировал свои документы на 2 ПОЗИТИВНЫХ и ОТРИЦАТЕЛЬНЫХ документа.И я выбрал пространство своих функций с помощью метода IG.

Как я могу представить документы, которые стали вектором с весовым термином tf-idf по Lucene.

Спасибо!

С наилучшими пожеланиями!

1 Ответ

1 голос
/ 31 июля 2011

Apache Mahout - это библиотека машинного обучения на Java. У него есть утилиты для создания векторов документов из индекса lucene (созданного из необработанного текста). Вы можете принять код согласно вашему требованию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...