Я пытаюсь обучить модель word2vec, используя gensim.Это строка, которую я использую:
model = Word2Vec(training_texts, size=50, window=5, min_count=1, workers=4, max_vocab_size=20000)
Где training_texts - это список списков строк, представляющих слова.Корпус, который я использую, содержит 8924372 предложений с 141 985 244 словами и 1 531 477 уникальными словами.После обучения в модели присутствует только 15642 слова:
len(list(model.wv.vocab))
# returns 15642
Разве в модели не должно быть 20000 слов, как указано max_vocab_size?Почему он пропускает большинство обучающих слов?
Спасибо !!