Реализация SVM для классификации документов в c ++ - PullRequest
0 голосов
/ 26 февраля 2020

Я хотел бы реализовать небольшой проект, чтобы классифицировать набор документов (file.txt) по числу категорий, а затем протестировать новые документы в соответствии с тем, используя SVM в c ++.

Я много искал это, но тем не менее, я не получил полного понимания того, что мне нужно делать! Я слышал о библиотеке LIBLINEAR, но не знаю, как ее использовать, если я буду использовать TF-IDF, нужно ли иметь вектор для каждого класса? или один вектор для всех классов? Как проверить новый документ с помощью TF-IDF? Я действительно смущен!

1 Ответ

0 голосов
/ 06 марта 2020

Требуется ли, чтобы он был написан на c ++? Python предлагает множество полезных ресурсов и готовых к использованию модулей для задач машинного обучения, таких как внедрение и использование svm.

Например, в scikit-learn полезные ресурсы об этом topi c могут быть найдено, например, это: https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

А что касается вашего вопроса - для реализации TF-IDF вам понадобится вектор для каждого документа. Для каждого документа будут перечислены слова в нем и присвоены значения (значения TF-IDF).

...