Пример данных со слишком большим количеством измерений в SVM - PullRequest
0 голосов
/ 14 ноября 2018

Я работаю над данными об обучении и тестировании в виде фрагментов поиска Google.

Данные обучения состоят из 10 060 фрагментов. Каждый фрагмент в каждой строке и каждый фрагмент состоит из списка слов / терминов и метки класса в конце.

Есть 8 ярлыков классов:

Business,Computers,Culture-Arts,Entertainment,Education-Science,Engineering,Health,Politics-Society,Sports 

Ниже приведены некоторые строки в наборе данных:

manufacture manufacturer directory directory china taiwan products manufacturers directory- taiwan china products manufacturer direcory exporter directory supplier directory suppliers business

empmag electronics manufacturing procurement homepage electronics manufacturing procurement magazine procrement power products production essentials data management business

dfma truecost paper true cost overseas manufacture product design costs manufacturing products china manufacturing redesigned product china save business

Как видите, данные должны иметь одинаковое количество измерений для использования SVM.

Я думаю, использовать 1, чтобы указать, встречается ли слово в определенной строке, и 0 в противном случае, поэтому каждая строка будет вектором 0/1. Тем не менее, будет слишком много измерений.

Мой вопрос: Есть ли другие способы предварительной обработки данных для эффективного выполнения SVM?

1 Ответ

0 голосов
/ 07 декабря 2018

Вы должны проверить взвешивание членов и выбор функции перед выполнением классификации текста с помощью SVM.

Подход по умолчанию будет:

  1. Проверка для tfc взвешивания по срокам. Это основано на так называемой частоте обратных документов, умноженной на частоты терминов (в текущем документе).

  2. Проверка для выбора функции на основе Information Gain

  3. Преобразуйте свои документы на основе 1. и 2.

  4. Выполните классификацию текста с помощью SVM.

Я рекомендую следующие публикации для дальнейшего понимания / чтения. В этих публикациях вы найдете типичные подходы, используемые для классификации текста на основе SVM в исследовательском сообществе:

...