Использование GLOVEs pretrained glove.6B.50.txt в качестве основы для встраивания слов R - PullRequest
0 голосов
/ 17 ноября 2018

Я пытаюсь преобразовать текстовые данные в векторы, используя GLOVE в r. Мой план состоял в том, чтобы усреднить векторы слов в предложении, но я не могу добраться до стадии векторизации слова. Я скачал файл glove.6b.50.txt и его родительский zip-файл из: https://nlp.stanford.edu/projects/glove/, и я зашел на сайт text2vec и попытался просмотреть их пример, где они загружают данные из Википедии. Но я не думаю, что это то, что я ищу (или, возможно, я не понимаю). Я пытаюсь загрузить предварительно обученные вложения в модель, чтобы, если у меня было предложение (скажем, «Я люблю лампу»), я мог выполнять итерацию этого предложения и превращать каждое слово в вектор, который затем усреднял (превращая неизвестные слова в нулями) с помощью функции векторизации (слова). Как загрузить предварительно подготовленные вложения в модель перчаток в качестве корпуса (и это даже то, что мне нужно сделать, чтобы достичь своей цели?)

1 Ответ

0 голосов
/ 06 февраля 2019

Я в конце концов понял это.Матрица вложений - это все, что мне нужно.В его словаре уже есть слова в качестве имен строк, поэтому я использую их для определения вектора каждого слова.

Теперь мне нужно выяснить, как обновить эти векторы!

...