Question

Я работаю над проблемой классификации документов с использованием CNN / LSTM и вложений, созданных из универсального кодировщика предложений. У меня есть 10000 записей, и каждая запись имеет около 100 ~ 600 предложений. Я сохраняю все матрицы документов в один файл json, прежде чем передать их в модели нейронной сети. Общий размер файла json составляет около 20 ГБ, что займет слишком много памяти.

Я не уверен, стоит ли сохранять документы в текстовом формате и преобразовывать их во вложения предложений в процессе обучения. Какое потенциальное решение?

Tensorflow Support · Answer 1 · 11 марта 2020

Предоставление решения в этом разделе (даже если оно присутствует в разделе комментариев) в интересах сообщества.

Сохранение вложений в отдельном файле Pickle решило проблему.

Обработка больших плотных векторов, сгенерированных из универсального кодировщика предложений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка больших плотных векторов, сгенерированных из универсального кодировщика предложений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы