Можно ли сгенерировать модель word2vec из большого корпуса, используя h2o?
У меня большой корпус, специфичный для легального домена (около 80 ГБ в файле паркета с использованием сжатия Snappy).Я не мог обучить модель word2vec, используя h2o, потому что она не помещается в памяти, и я не мог найти способ сделать это постепенно или в пакетном режиме.Есть ли способ использовать предыдущие контрольные точки и / или повторно использовать вложения, сгенерированные из другого корпуса?
Есть ли какой-нибудь пример для этого?