Можете ли вы предложить мне хорошую библиотеку Java для классификации текста с помощью модели векторного пространства? - PullRequest
1 голос
/ 05 июня 2010

Мне нужно извлечь представление векторного пространства нескольких документов, а затем вычислить косинусное расстояние между ними.

Я бы хотел использовать это расстояние для классификации некоторых новых документов с использованием подхода k-Nearest-Neighbor.

У вас есть предложения по библиотекам, которые я мог бы использовать?

До сих пор я видел, что и Weka, и Apache Lucene должны поддерживать Vector Space Model, какая, по вашему мнению, лучше всего соответствует моим потребностям?

1 Ответ

1 голос
/ 23 декабря 2013

Weka и Lucene - это два разных подхода.

Weka - это универсальный инструментарий для машинного обучения. Если вы хотите построить гибкую систему машинного обучения, и у вас есть время / энергия, и вы хотите иметь возможность вносить любые изменения, а также настраивать параметры и масштабирование не является проблемой, тогда Weka - хороший вариант .

Lucene специализируется на тексте, и вы должны пойти на это, если вы хотите иметь быстрое решение, которое может легко обрабатывать текст, искать похожие документы и обрабатывать большие объемы данных. Это не значит, что Lucene уступает, совсем наоборот, когда мы ссылаемся на текст. Таким образом, чтобы легко реализовать kNN, я бы выбрал Lucene (удачи в масштабах - kNN имеет сложность N ^ 2).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...