gensim создает файлы с расширением .bin.trainables.syn1neg.npy и .bin.wv.vectors.npy в дополнение к .bin - PullRequest
0 голосов
/ 23 октября 2018

Я использую Python Gensim для создания word2vec для моих 93 миллионов предложений.Однако, когда я тренирую свою модель, я получаю три файла в качестве выходных данных с расширениями .bin.trainables.syn1neg.npy и .bin.wv.vectors.npy в дополнение к .bin.Я ознакомился с ответом, приведенным здесь: Почему в gensim word2vec создано несколько файлов моделей? , что дает обоснование того, почему это происходит.Тем не менее, я хотел бы знать, есть ли способ конвертировать эти файлы в обычный файл с одним файлом?

1 Ответ

0 голосов
/ 23 октября 2018

Существует необязательный параметр для .save(), называемый sep_limit со значением по умолчанию 10 МБ, который контролирует порог, при котором используются отдельные файлы.Вы можете попытаться установить для этого значения намного большее - больше, чем любой из дополнительных файлов, которые вы видите, - и если ваша модель все еще достаточно мала, чтобы не превышать ограничения pickle(), это может работать.

Но, gensim сохраняет модель в нескольких файлах как для повышения эффективности, так и для гарантии отсутствия ограничений по размеру в Python pickle().Вы должны, если это возможно, просто хранить файлы вместе в виде набора.У них всегда будет тот же общий префикс, который вы указали в качестве имени .save().

...