Каков формат ввода для функций word2vec в задаче классификации SVM? - PullRequest
0 голосов
/ 24 февраля 2019

Я делаю бинарную задачу классификации с использованием линейного SVM в scikit learn.Я использую именные функции и векторы слов.Я получил векторы слов, используя предварительно обученный Google word2vec, однако я не уверен, как SVM может обрабатывать векторы слов как элемент.
Кажется, мне нужно «разделить» каждый вектор на 300 отдельных объектов (= 300 векторных измерений), потому что я не могу передать вектор в целом в SVM.Но это кажется неправильным, поскольку вектор должен рассматриваться как одна особенность.
Каков будет правильный способ представления вектора в этом случае?

1 Ответ

0 голосов
/ 24 февраля 2019

Вектор из множества элементов

С точки зрения SVM каждое измерение слова-вектора будет отдельной числовой характеристикой - каждое измерение в этом векторе представляет числовую метрику, представляющую что-то другое.

То же самое относится и к классификаторам без SVM.Например, если у вас будет нейронная сеть, и ваши входные функции будут состоять из этого слова-вектора длиной 300 и (ради грубого примера), в котором будет указано, было ли это слово написано с большой буквы, тогда вы объедините эти слова ибудет иметь 301 число в качестве ввода;вы бы относились к этой функции так же, как к каждому из 300 измерений.

...