Как использовать набор данных reuters-21578 с svm.net для классификации текста? - PullRequest
3 голосов
/ 23 мая 2011

Я только что запустил приложение для классификации текста и прочитал много статей на эту тему, но до сих пор я не знаю, с чего начать, я чувствую, что у меня нет полного изображения. Я получил обучающий набор данных, прочитал его описание и получил отличную реализацию алгоритма SVM (SVM.Net), но я не знаю, как использовать этот набор данных с этой реализацией. Я знаю, что должен извлечь элементы из текстов набора данных и использовать эти функции в качестве входных данных для SVM, поэтому любой орган может рассказать мне о подробном руководстве о том, как извлечь элементы текста и использовать их в качестве входных данных для алгоритма SVM, а затем использовать этот алгоритм для классификации нового текста? И если есть полный пример использования SVM для классификации текста, это было бы замечательно.

Любая помощь будет оценена. Заранее спасибо.

1 Ответ

4 голосов
/ 23 мая 2011

Создание объектов для классификации текста может быть настолько сложным, насколько вы хотите.

Простой подход - просто сопоставить каждый отдельный термин с индексом объекта. Затем вы представляете каждый документ как вектор частот каждого термина. (Вы можете удалить стоп-слова, термины веса и т. Д.). Для классификации текста вы также можете присвоить каждому вектору метку.

Например, если в документе было предложение:

John loves Mary

с ярлыком "спам".

Тогда у вас может быть следующее отображение:

John : 1
loves: 2
Mary: 3

Ваш вектор становится:

1 1 2 1 3 1

(я предположил, что каждая особенность имеет вес один)

Я не знаю о SVM.NET, но большинство контролируемых методов машинного обучения будут принимать ввод на основе вектора.

...