Обработка больших плотных векторов, сгенерированных из универсального кодировщика предложений - PullRequest
0 голосов
/ 02 марта 2020

Я работаю над проблемой классификации документов с использованием CNN / LSTM и вложений, созданных из универсального кодировщика предложений. У меня есть 10000 записей, и каждая запись имеет около 100 ~ 600 предложений. Я сохраняю все матрицы документов в один файл json, прежде чем передать их в модели нейронной сети. Общий размер файла json составляет около 20 ГБ, что займет слишком много памяти.

Я не уверен, стоит ли сохранять документы в текстовом формате и преобразовывать их во вложения предложений в процессе обучения. Какое потенциальное решение?

1 Ответ

0 голосов
/ 11 марта 2020

Предоставление решения в этом разделе (даже если оно присутствует в разделе комментариев) в интересах сообщества.

Сохранение вложений в отдельном файле Pickle решило проблему.

...