Диапазон значений вектора в модели Генсима - PullRequest
0 голосов
/ 26 сентября 2019

Я извлекаю вектор встраивания слов из модели word2vec, используя model.wv.Каков диапазон значений для каждого элемента в этом векторе?

import gensim

word2vec_model = gensim.models.Word2Vec.load("testModel")
word2vec_model.wv["increase"] #What is range of values for each vector element?

Не могу найти эту информацию в документации.

1 Ответ

1 голос
/ 27 сентября 2019

Каждое измерение вектора является 32-битным значением с плавающей точкой.

Нет никаких существенных или принудительных ограничений, кроме этого, хотя процесс обучения таков, что отдельные измерения имеют тенденцию не быть "очень большими" - часто оставаясь в диапазоне от -1,0 до 1,0.

Обычно (но не обязательно или полезно для всех приложений) нормализовать векторы слов, чтобы они имели величину 1,0, прежде чем сравнивать их с другими аналогично нормализованными векторами слов.

Вы можете запросить такую ​​нормированную на единицу версию слова-вектора с параметром use_norm метода word_vec():

model.wv.word_vec(word, use_norm=True)

В таком единичном нормированном векторе нет ни одногоразмер будет вне диапазона от -1,0 до 1,0.

...