Вы можете тренировать модели word2vec на гигабайтах, терабайтах, петабайтах текста, если хотите.Любое количество текста, если вы достаточно терпеливы.
Сама модель, как правило, должна храниться в оперативной памяти для эффективности, но размер модели зависит от количества уникальных слов , которые изучает модель, и выбранного количества измерений дляэти слова, не общий объем данных обучения.
Таким образом, вы можете передавать поток из сотен гигабайт текста с диска, чтобы обучить небольшую лексику и модель word2vec малого размера, используя всего 1 ГБ ОЗУ.
Но в качестве альтернативы вы могли бы иметь корпус размером всего в несколько ГБ, содержащий миллионы уникальных слов, которые вы хотите сохранить, и обучить векторы больших размеров - и модель word2vec для этого может не уместиться в 64 ГБ.или 128 ГБ оперативной памяти.
Так что нет единого ответа для «word2vec» - это зависит от вашего корпуса, желаемой лексики и других выбранных параметров.
Графические процессоры могут помочь с определенными видами вычислений и рабочими нагрузками.Они часто не оптимальны для обучения в стиле word2vec, так как встроенная память и пропускная способность памяти графического процессора могут быть ограничены способами, которые делают крупнокачественные, крупногабаритные модели хитом узких мест.