Я работаю над проблемой классификации документов с использованием CNN / LSTM и вложений, созданных из универсального кодировщика предложений. У меня есть 10000 записей, и каждая запись имеет около 100 ~ 600 предложений. Я сохраняю все матрицы документов в один файл json, прежде чем передать их в модели нейронной сети. Общий размер файла json составляет около 20 ГБ, что займет слишком много памяти.
Я не уверен, стоит ли сохранять документы в текстовом формате и преобразовывать их во вложения предложений в процессе обучения. Какое потенциальное решение?