Как конвертировать word2vec в формат перчаток - PullRequest
0 голосов
/ 09 октября 2018

Я провел некоторое исследование и обнаружил, что у gensim есть скрипт для преобразования перчатки в word2vec GLove2Wrod2Vec .Я собираюсь сделать наоборот.

Есть ли какой-нибудь простой способ конвертировать, используя gensim или любую другую библиотеку

1 Ответ

0 голосов
/ 19 октября 2018

Единственное различие между форматом векторного файла перчаток и форматом файла word2vec состоит в одной строке в начале .txt формата word2vec, которая имеет

<num words> <num dimensions>

В противном случаевекторы представлены одинаково.Нам не нужно менять векторы для изменения формата.

Цитирование страницы, на которую вы ссылались в вопросе:

Both files are
presented in text format and almost identical except that word2vec includes
number of vectors and its dimension which is only difference regard to GloVe.
Notes
-----
GloVe format (real example can be founded `on Stanford size <https://nlp.stanford.edu/projects/glove/>`_) ::
    word1 0.123 0.134 0.532 0.152
    word2 0.934 0.412 0.532 0.159
    word3 0.334 0.241 0.324 0.188
    ...
    word9 0.334 0.241 0.324 0.188
Word2Vec format (real example can be founded `on w2v old repository <https://code.google.com/archive/p/word2vec/>`_) ::
    9 4
    word1 0.123 0.134 0.532 0.152
    word2 0.934 0.412 0.532 0.159
    word3 0.334 0.241 0.324 0.188
    ...
    word9 0.334 0.241 0.324 0.188

В приведенном выше примере первая строка word2vec 9 4 сообщает намчто у нас есть 9 слов в словаре, каждый из которых имеет 4 измерения.

TL; DR Итак, чтобы преобразовать из w2v -> glove: удалите строку <num words> <num dimensions> изw2v.Вы можете вывести его из файла в любом случае.

Чтобы преобразовать из glove -> w2v: добавьте строку <num words> <num dimensions> к glove.

Вы можете сделать это вручную, ноГенсим дает возможность перейти от одного к другому.

...