Единственное различие между форматом векторного файла перчаток и форматом файла word2vec состоит в одной строке в начале .txt
формата word2vec, которая имеет
<num words> <num dimensions>
В противном случаевекторы представлены одинаково.Нам не нужно менять векторы для изменения формата.
Цитирование страницы, на которую вы ссылались в вопросе:
Both files are
presented in text format and almost identical except that word2vec includes
number of vectors and its dimension which is only difference regard to GloVe.
Notes
-----
GloVe format (real example can be founded `on Stanford size <https://nlp.stanford.edu/projects/glove/>`_) ::
word1 0.123 0.134 0.532 0.152
word2 0.934 0.412 0.532 0.159
word3 0.334 0.241 0.324 0.188
...
word9 0.334 0.241 0.324 0.188
Word2Vec format (real example can be founded `on w2v old repository <https://code.google.com/archive/p/word2vec/>`_) ::
9 4
word1 0.123 0.134 0.532 0.152
word2 0.934 0.412 0.532 0.159
word3 0.334 0.241 0.324 0.188
...
word9 0.334 0.241 0.324 0.188
В приведенном выше примере первая строка word2vec 9 4
сообщает намчто у нас есть 9 слов в словаре, каждый из которых имеет 4 измерения.
TL; DR Итак, чтобы преобразовать из w2v
-> glove
: удалите строку <num words> <num dimensions>
изw2v
.Вы можете вывести его из файла в любом случае.
Чтобы преобразовать из glove
-> w2v
: добавьте строку <num words> <num dimensions>
к glove
.
Вы можете сделать это вручную, ноГенсим дает возможность перейти от одного к другому.