Question

Мне нужно извлечь представление векторного пространства нескольких документов, а затем вычислить косинусное расстояние между ними.

Я бы хотел использовать это расстояние для классификации некоторых новых документов с использованием подхода k-Nearest-Neighbor.

У вас есть предложения по библиотекам, которые я мог бы использовать?

До сих пор я видел, что и Weka, и Apache Lucene должны поддерживать Vector Space Model, какая, по вашему мнению, лучше всего соответствует моим потребностям?

iliasfl · Answer 1 · 23 декабря 2013

Weka и Lucene - это два разных подхода.

Weka - это универсальный инструментарий для машинного обучения. Если вы хотите построить гибкую систему машинного обучения, и у вас есть время / энергия, и вы хотите иметь возможность вносить любые изменения, а также настраивать параметры и масштабирование не является проблемой, тогда Weka - хороший вариант .

Lucene специализируется на тексте, и вы должны пойти на это, если вы хотите иметь быстрое решение, которое может легко обрабатывать текст, искать похожие документы и обрабатывать большие объемы данных. Это не значит, что Lucene уступает, совсем наоборот, когда мы ссылаемся на текст. Таким образом, чтобы легко реализовать kNN, я бы выбрал Lucene (удачи в масштабах - kNN имеет сложность N ^ 2).

Можете ли вы предложить мне хорошую библиотеку Java для классификации текста с помощью модели векторного пространства?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можете ли вы предложить мне хорошую библиотеку Java для классификации текста с помощью модели векторного пространства?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов