Создание объектов для классификации текста может быть настолько сложным, насколько вы хотите.
Простой подход - просто сопоставить каждый отдельный термин с индексом объекта. Затем вы представляете каждый документ как вектор частот каждого термина. (Вы можете удалить стоп-слова, термины веса и т. Д.). Для классификации текста вы также можете присвоить каждому вектору метку.
Например, если в документе было предложение:
John loves Mary
с ярлыком "спам".
Тогда у вас может быть следующее отображение:
John : 1
loves: 2
Mary: 3
Ваш вектор становится:
1 1 2 1 3 1
(я предположил, что каждая особенность имеет вес один)
Я не знаю о SVM.NET, но большинство контролируемых методов машинного обучения будут принимать ввод на основе вектора.