Модель Gensim word2ve c такая же, как стандартная модель Миколова? - PullRequest
0 голосов
/ 19 апреля 2020

Я пишу статью для сравнения наших показателей. В статье уатор говорит:

300-мерные предварительно обученные векторы word2ve c (Миколов и др., 2013)

Интересно, прошли ли подготовленные word2ve c модель Gensim здесь такая же, как и предварительно встроенные вложения на официальном сайте Google (файл GoogleNews-vectors-absolute300.bin.gz)


Мой источник сомнений проистекает из этой строки в документации Gensim (в демонстрационном разделе Word2Ve c)

Мы получим модель Word2Ve c, обученную на части набора данных Новостей Google, охватывающую приблизительно 3 миллиона слов и фраз

Означает ли это, что модель на генсиме не полностью обучена? Отличается ли это от официальных вложений Миколова?

1 Ответ

1 голос
/ 19 апреля 2020

Этот демонстрационный код для чтения векторов слов загружает точно такой же набор GoogleNews-vectors-negative300 векторов, обученный Google. (Никто другой не может попытаться повторно обучить этот набор данных, потому что исходный корпус пользователя новостных статей, более 100B слов обучающих данных примерно с 2013 года, если я правильно помню, является внутренним для Google.)

Алгоритмически Реализация gensim Word2Vec была тщательно смоделирована после кода word2vec.c, выпущенного Google / Mikolov, поэтому она должна соответствовать его результатам в измеримых отношениях по отношению к любым вновь обученным векторам. (Незначительные различия в подходах к многопоточности могут иметь небольшую разницу.)

...