Я работаю над данными об обучении и тестировании в виде фрагментов поиска Google.
Данные обучения состоят из 10 060 фрагментов. Каждый фрагмент в каждой строке и каждый фрагмент состоит из списка слов / терминов и метки класса в конце.
Есть 8 ярлыков классов:
Business,Computers,Culture-Arts,Entertainment,Education-Science,Engineering,Health,Politics-Society,Sports
Ниже приведены некоторые строки в наборе данных:
manufacture manufacturer directory directory china taiwan products manufacturers directory- taiwan china products manufacturer direcory exporter directory supplier directory suppliers business
empmag electronics manufacturing procurement homepage electronics manufacturing procurement magazine procrement power products production essentials data management business
dfma truecost paper true cost overseas manufacture product design costs manufacturing products china manufacturing redesigned product china save business
Как видите, данные должны иметь одинаковое количество измерений для использования SVM.
Я думаю, использовать 1, чтобы указать, встречается ли слово в определенной строке, и 0 в противном случае, поэтому каждая строка будет вектором 0/1. Тем не менее, будет слишком много измерений.
Мой вопрос: Есть ли другие способы предварительной обработки данных для эффективного выполнения SVM?