Обрезать набор до 1-го N слов легко с необязательным аргументом метода gensim
load_word2vec_format()
, limit
.Если присутствует, будет загружено только указанное количество слов.Например, limit=500000
читает только первые 500 000 слов из предоставленного файла.
Поскольку такие файлы обычно сортируются, чтобы поставить самые часто встречающиеся слова в первую очередь, вы часто не теряете много, отбрасывая «длинный хвост» более поздних слов.(Они будут появляться реже в ваших текстах, и их векторы слов были обучены на меньшем количестве примеров и, следовательно, более низкого качества.)
Затем вы могли бы повторно save_word2vec_format()
усеченный набор, еслиВы хотели меньший файл на диске.
Вы также можете изменить файл на диске, чтобы он включал в себя только некоторое другое подмножество слов для сохранения.Это может быть проще сделать в текстовом (binary=False
) формате.Просмотр исходного кода gensim
для load_word2vec_format()
/ save_word2vec_format()
может помочь вам понять, как должен выглядеть файл для чтения обратно.