Я пытаюсь выполнить классификацию документов с использованием машин опорных векторов (SVM).Документы у меня есть коллекция писем.У меня есть около 3000 документов для обучения классификатора SVM, и у меня есть набор тестовых документов около 700, для которого мне нужна классификация.
Я изначально использовал двоичный DocumentTermMatrix в качестве входных данных для обучения SVM.Я получил около 81% точности для классификации с данными испытаний.DocumentTermMatrix использовался после удаления нескольких стоп-слов.
Поскольку я хотел повысить точность этой модели, я попытался использовать уменьшение размеров на основе LSA / SVD и использовать полученные уменьшенные коэффициенты в качестве входных данных для модели классификации (я пытался с20, 50, 100 и 200 единичных значений из оригинального пакета ~ 3000 слов).Производительность классификации ухудшалась в каждом конкретном случае.(Другой причиной использования LSA / SVD было преодоление проблем с памятью с помощью одной из переменных отклика, имеющей 65 уровней).
Может ли кто-нибудь дать некоторые советы о том, как повысить производительность классификации LSA / SVD?Я понимаю, что это общий вопрос без каких-либо конкретных данных или кода, но был бы признателен за некоторые комментарии экспертов о том, с чего начать отладку.
К вашему сведению, я использую R для предварительной обработки текста (пакеты: tm, snowball, lsa) и построение классификационных моделей (пакет: kernelsvm)
Спасибо.