Я пытался обучить языковую модель, используя двухслойный LSTM с тензорным потоком, следуя приведенному здесь коду https://github.com/tsungruihon/RNN-language-model/blob/master/RNNLM.py. Но программа происходит OOM
во время половины обучения (около 45% данных обучения).Ниже приведены основные параметры:
batch iterator
: да learning rate decay
: да padding batch
: да num of LSTM layers
: 2 num of hidden units
: 128 vocab size
: 50000 batch size
: 64 num of epoch
: 1 num of training data
: 20 000 000 num of validation data
: 1 000 000 loss function
: tf.nn.sparse_softmax_cross_entropy_with_logits
Optimizer
: AdagradOptimizer
num of GPU
: 1 memory of GPU
: 11G
Я новичок в tenorflow и языковой модели.Теперь я думаю, что главной проблемой является loss function
.Надеюсь, кто-нибудь может дать мне подсказку.Большое спасибо!