Я создал двухслойную модель LSTM, которую я хочу обучить на недавнем свалке статей из английской Википедии (15,1 ГБ текста). Я не могу загрузить корпус в текстовую переменную для встраивания слова. Как модели Keras RNN обычно обучаются на таких огромных текстовых корпусах, чтобы избежать ошибок памяти?
После попытки открыть 15,1 ГБ файл с помощью:
text = open('/home/connor/Desktop/wiki_en.txt').read().lower()
Я получаю это сообщение об ошибке:
(результат, израсходован) = self._buffer_decode (data, self.errors, final)
MemoryError