Этот демонстрационный код для чтения векторов слов загружает точно такой же набор GoogleNews-vectors-negative300
векторов, обученный Google. (Никто другой не может попытаться повторно обучить этот набор данных, потому что исходный корпус пользователя новостных статей, более 100B слов обучающих данных примерно с 2013 года, если я правильно помню, является внутренним для Google.)
Алгоритмически Реализация gensim
Word2Vec
была тщательно смоделирована после кода word2vec.c
, выпущенного Google / Mikolov, поэтому она должна соответствовать его результатам в измеримых отношениях по отношению к любым вновь обученным векторам. (Незначительные различия в подходах к многопоточности могут иметь небольшую разницу.)