Поскольку у вас есть только слова и их векторы, у вас недостаточно информации для полной модели Word2Vec
(которая включает в себя другие вещи, такие как скрытые веса внутренней нейронной сети и частоты слов).
Но вы можете создать объект gensim
KeyedVectors
общего вида, который находится в свойстве gensim
Word2Vec
модель .wv
. Он имеет много вспомогательных методов (например, most_similar()
), которые вы можете использовать.
Предположим, что ваш список слов A находится в более понятном названии списка Python, называемом words_list
, а ваш список B векторовв более понятном названии списка Python, называемом 'vectors_list`.
Попробуйте:
from gensim.models import KeyedVectors
kv = new KeyedVectors(512)
kv.add(words_list, vectors_list)
kv.save(`mywordvecs.kvmodel`)
Затем вы можете позже перезагрузить их через:
kv2 = KeyedVectors.load(`mywordvecs.kvmodel`)
(Вы также можете использовать save_word2vec_format()
и load_word2vec_format()
вместо родного save()
/ load()
от gensim, если вы хотите использовать более простые форматы простых векторов, которые также могут быть загружены другими инструментами, использующими этот формат. в gensim
простые save()
/ load()
также хороши - и будет лучше, если сохранить более сложную обученную модель Word2Vec
, потому что они сохранят дополнительную информацию, содержащуюся в этих объектах.)