Есть ли альтернатива полной загрузке предварительно обученных вложений слов в память? - PullRequest
1 голос
/ 19 марта 2019

Я хочу использовать предварительно обученные вложения слов в мою модель машинного обучения.Файл вложений слов у меня составляет около 4 ГБ.В настоящее время я считываю весь файл в память в словаре и всякий раз, когда я хочу сопоставить слово с его векторным представлением, я выполняю поиск в этом словаре.

Использование памяти очень высокое, и я хотел бы знать, еслиесть другой способ использования встраивания слов без загрузки всех данных в память.

Я недавно сталкивался с генераторами в Python.Могут ли они помочь мне уменьшить использование памяти?

Спасибо!

1 Ответ

1 голос
/ 19 марта 2019

Какую задачу вы имеете в виду? Если это задание на основе сходства, вы можете просто использовать метод load_word2vec_format в gensim, это позволяет вам передать ограничение на количество загруженных векторов. Векторы в чем-то вроде набора Googlenews упорядочены по частоте, это даст вам критические векторы. Это также имеет смысл теоретически, поскольку слова с низкой частотой обычно имеют относительно плохое представление.

...