Понимание использования перчаток - PullRequest
0 голосов
/ 04 февраля 2020

Я использовал следующий код для использования векторов перчаток для встраивания слов

from gensim.scripts.glove2word2vec import glove2word2vec    #line1
glove_input_file = 'glove.840B.300d.txt'  #line2
word2vec_output_file = 'glove.word2vec'   #line3
glove2word2vec(glove_input_file, word2vec_output_file)  #line4
from gensim.models import KeyedVectors  #line5
glove_w2vec = KeyedVectors.load_word2vec_format('glove.word2vec', binary=False) #line6

Я понимаю, что этот фрагмент кода предназначен для использования векторов с перетренированными перчатками для встраивания слов. Но я не уверен, что происходит в каждой строке. Зачем конвертировать перчатки в формат word2ve c? Что именно делает KeyedVectors.load_word2vec_format?

1 Ответ

0 голосов
/ 05 февраля 2020

Оба алгоритма GloVe и word2vec создают слова-векторы, вектор на слово.

Но форматы для хранения этих векторов немного отличаются. Функция gensim glove2word2vec() позволит вам преобразовать файл в формате GloVe в формат, используемый исходным кодом Google word2vec.c.

https://radimrehurek.com/gensim/scripts/glove2word2vec.html

Между тем, метод gensim KeyedVectors.load_word2vec_format() может загружать векторы в этом формате word2vec.c в экземпляр KeyedVectors (или один из его подклассов с одним и тем же интерфейсом), для простого поиска и других распространенных словесно-векторных операций.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...