Если у меня есть два отзыва о фильме:
"this was a really good movie" and "i did not like this movie at all"
И я применяю вложение GloVe к ним, я получу два вектора с несколькими векторами слов внутри, которые выглядят так:
1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
По сути, каждое слово в обзоре будет преобразовано в массив из 300 элементов с плавающей точкой. Поскольку массивы имеют переменную длину, я не могу просто вставить их в классификатор.
Я думал о том, чтобы сделать какое-то представление Bag-of-Words, но я не уверен, как бы я реализовал это сейчас, когда слова стали числами.