Gensim word2vec - начать словарь с индекса, отличного от 0 - PullRequest
0 голосов
/ 04 июня 2018

Я использую gensim для создания векторов слов на основе моего корпуса, как показано ниже:

model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)

Мне было интересно, можно ли начинать (или как-то избегать) слова с индексами 0 и 1?Я хотел бы, чтобы мой словарь начинался с индекса 2, потому что мне нужно выполнять другие операции, и если я оставляю индексы 0 и 1, это немного сбивает с толку.

Спасибо за помощь!

1 Ответ

0 голосов
/ 04 июня 2018

Это не встроенная функция Word2Vec.

Это, вероятно, не очень хорошая идея, но вы могли бы грубо подделать его, создав два фиктивных слова с очень высокой частотой, и добавить примеры, содержащие их, в свои тренировочные данные таким образом, чтобыоказывают минимальное влияние на другие векторы.

Например, если самое распространенное слово в вашем корпусе встречается 5000 раз, создайте поддельный текст, содержащий только слова «dummy000000000» и «dummy000000001», повторяющиеся по 1000 раз каждое.Добавьте этот поддельный текст в ваш корпус 6 раз.Тогда «dummy000000000» и «dummy000000001» будут двумя наиболее часто встречающимися словами в корпусе и, таким образом, получат индексы 0 и 1 (в обычном случае).Их обучение потратит время, и модель потратит немного своего потенциального состояния, давая этим словам грубые векторы, но они должны оказывать минимальное влияние на другие слова (поскольку они никогда не встречаются с реальными словами).Вуаля, у вас есть 0 и 1 индексы, которые вы можете игнорировать (или рассматривать как ошибки) позже!

Но, написав это, это определенно плохая идея.Это замедлит и немного ухудшит модель.Различные статистические данные о прогрессе / подсчете модели будут слегка вводить в заблуждение.

И наличие таких индексов, начинающихся с 0, является очень типичной практикой профессионального программирования.Если вас смущает, вообще или для вашего конкретного проекта, это может быть барьером привычки / понимания, который лучше проработать, чем пытаться обходиться нестандартной практикой.

...