Какую реализацию word2vec вы используете?
В популярной библиотеке gensim
после того, как модель Word2Vec
установила свой словарь (либо путем полного обучения, либо после вызова build_vocab()
), свойство wv
модели содержит объект KeyedVectors
-типа, который в качестве свойства vocab
является указанием объектов типа Vocab
, которые имеют свойство count
частоты слова в отсканированномкорпус.
Таким образом, вы можете получить примерно то, что вы ищете, с чем-то вроде:
w2v_model = Word2Vec(your_corpus, ...)
for word in w2v_model.wv.vocab:
print((word, w2v_model.wv.vocab[word].count))
Простые наборы слов-векторов (например, загруженные с помощью gensim
'load_word2vec_format()
метода) победилине имеют точных подсчетов, но по правилам обычно внутренне упорядочены от наиболее частых к наименее частым.