Типы вывода модели Word2Vec - PullRequest
0 голосов
/ 01 июня 2018

При обучении модели Word2Vec создаются три выходных файла.

  • модель
  • model.wv.syn0
  • model.syn1neg

У меня есть пара вопросов относительно этих моделей.

  1. Чем эти выходные данные существенно отличаются друг от друга?

  2. Какая модельпосмотреть, хочу ли я получить доступ к обученным результатам?

Заранее спасибо!

1 Ответ

0 голосов
/ 02 июня 2018

Это 3 файла, созданные функцией gensim Word2Vec .save().Файл model представляет собой Python pickle основной модели;другие файлы являются одними из чрезмерно больших массивов, хранящихся отдельно для эффективности.syn0 содержит в себе необработанные векторы слов и syn1neg внутренние веса модели - но ни один из них не может быть чисто интерпретирован без других данных.

Таким образом, единственная поддержка для их повторной загрузки заключается в использовании соответствующей функции .load() со всеми тремя доступными.Успешное повторное load() приведет к созданию модельного объекта, подобного тому, который вы save() d, и вы получите доступ к результатам через этот загруженный объект.

(Если вам только нужны необработанные слова-слова, вы также можете использовать метод .save_word2vec_format(), который записывает в формате, совместимом с исходным кодом Google 1011 word2vec.c.Но этот формат содержит строго меньше информации, чем исходное сохранение gensim, поэтому вы можете использовать его, только если это абсолютно необходимо для совместимости с другим программным обеспечением. Работа с собственными файлами gensim гарантирует, что вы всегда сможете сохранить другой форматпозже, пока ты не можешь пойти другим путем.)

...