Как создать вектор функций Bag-of-Words после применения вложения GloVe? - PullRequest
0 голосов
/ 27 апреля 2019

Если у меня есть два отзыва о фильме:

"this was a really good movie" and "i did not like this movie at all"

И я применяю вложение GloVe к ним, я получу два вектора с несколькими векторами слов внутри, которые выглядят так:

1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]] 
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]

По сути, каждое слово в обзоре будет преобразовано в массив из 300 элементов с плавающей точкой. Поскольку массивы имеют переменную длину, я не могу просто вставить их в классификатор.

Я думал о том, чтобы сделать какое-то представление Bag-of-Words, но я не уверен, как бы я реализовал это сейчас, когда слова стали числами.

1 Ответ

0 голосов
/ 27 апреля 2019

Представление пакета слов имеет смысл только тогда, когда вы работаете со словами как с дискретными единицами. Если вы хотите использовать SVM, а не нейронную сеть, вы можете сделать с вложениями либо среднее, либо максимальное объединение (т. Е. Просто сделать среднее или максимальное по длине предложения).

В нейронных сетях вложения обрабатываются либо CNN, либо RNN, которые в основном хранят важную информацию и отбрасывают остальную часть. Поскольку в модели SVM нет ничего похожего, разумно было бы также удалить стоп-слова.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...