Question

При обучении модели Word2Vec создаются три выходных файла.

модель
model.wv.syn0
model.syn1neg

У меня есть пара вопросов относительно этих моделей.

Чем эти выходные данные существенно отличаются друг от друга?
Какая модельпосмотреть, хочу ли я получить доступ к обученным результатам?

Заранее спасибо!

gojomo · Answer 1 · 02 июня 2018

Это 3 файла, созданные функцией gensim Word2Vec .save().Файл model представляет собой Python pickle основной модели;другие файлы являются одними из чрезмерно больших массивов, хранящихся отдельно для эффективности.syn0 содержит в себе необработанные векторы слов и syn1neg внутренние веса модели - но ни один из них не может быть чисто интерпретирован без других данных.

Таким образом, единственная поддержка для их повторной загрузки заключается в использовании соответствующей функции .load() со всеми тремя доступными.Успешное повторное load() приведет к созданию модельного объекта, подобного тому, который вы save() d, и вы получите доступ к результатам через этот загруженный объект.

(Если вам только нужны необработанные слова-слова, вы также можете использовать метод .save_word2vec_format(), который записывает в формате, совместимом с исходным кодом Google 1011 word2vec.c.Но этот формат содержит строго меньше информации, чем исходное сохранение gensim, поэтому вы можете использовать его, только если это абсолютно необходимо для совместимости с другим программным обеспечением. Работа с собственными файлами gensim гарантирует, что вы всегда сможете сохранить другой форматпозже, пока ты не можешь пойти другим путем.)

Типы вывода модели Word2Vec

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Типы вывода модели Word2Vec

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы