Это не встроенная функция Word2Vec
.
Это, вероятно, не очень хорошая идея, но вы могли бы грубо подделать его, создав два фиктивных слова с очень высокой частотой, и добавить примеры, содержащие их, в свои тренировочные данные таким образом, чтобыоказывают минимальное влияние на другие векторы.
Например, если самое распространенное слово в вашем корпусе встречается 5000 раз, создайте поддельный текст, содержащий только слова «dummy000000000» и «dummy000000001», повторяющиеся по 1000 раз каждое.Добавьте этот поддельный текст в ваш корпус 6 раз.Тогда «dummy000000000» и «dummy000000001» будут двумя наиболее часто встречающимися словами в корпусе и, таким образом, получат индексы 0 и 1 (в обычном случае).Их обучение потратит время, и модель потратит немного своего потенциального состояния, давая этим словам грубые векторы, но они должны оказывать минимальное влияние на другие слова (поскольку они никогда не встречаются с реальными словами).Вуаля, у вас есть 0 и 1 индексы, которые вы можете игнорировать (или рассматривать как ошибки) позже!
Но, написав это, это определенно плохая идея.Это замедлит и немного ухудшит модель.Различные статистические данные о прогрессе / подсчете модели будут слегка вводить в заблуждение.
И наличие таких индексов, начинающихся с 0, является очень типичной практикой профессионального программирования.Если вас смущает, вообще или для вашего конкретного проекта, это может быть барьером привычки / понимания, который лучше проработать, чем пытаться обходиться нестандартной практикой.