библиотека для классификации текста в Java - PullRequest
3 голосов
/ 29 января 2012

У меня есть набор текстовых файлов по категориям. Я хочу классифицировать еще один большой набор текстовых файлов для использования в моих исследованиях. Есть ли хороший способ сравнить их?

Я думаю, что методы на основе SVM полезны, но есть ли простая и документированная библиотека для использования таких алгоритмов?

Ответы [ 2 ]

0 голосов
/ 31 января 2012

Маллет - это еще одна потрясающая библиотека для изучения. Он имеет хорошие инструменты командной строки, которые помогут вам начать работу, и Java API, как только вы начнете интегрировать его с остальной частью вашей системы.

0 голосов
/ 29 января 2012

Я не знаю много о SVM, но LingPipe может быть действительно полезным для вас. ссылка - это учебное пособие, посвященное категоризации документов (автоматическое или управляемое).

Также обратите внимание на взаимосвязанные поисковые продукты Lucene (библиотека поиска), Solr (приложение сервера поиска) и Carrot2 (для «кластеризации» результатов поиска). В этом месте для вас должна быть интересная работа.

...