LSTM язык модель китайского произойдет OOM - PullRequest
0 голосов
/ 08 октября 2018

Я пытался обучить языковую модель, используя двухслойный LSTM с тензорным потоком, следуя приведенному здесь коду https://github.com/tsungruihon/RNN-language-model/blob/master/RNNLM.py. Но программа происходит OOM во время половины обучения (около 45% данных обучения).Ниже приведены основные параметры:

  • batch iterator: да
  • learning rate decay: да
  • padding batch: да
  • num of LSTM layers: 2
  • num of hidden units: 128
  • vocab size: 50000
  • batch size: 64
  • num of epoch: 1
  • num of training data: 20 000 000
  • num of validation data: 1 000 000
  • loss function: tf.nn.sparse_softmax_cross_entropy_with_logits
  • Optimizer: AdagradOptimizer
  • num of GPU: 1
  • memory of GPU: 11G

Я новичок в tenorflow и языковой модели.Теперь я думаю, что главной проблемой является loss function.Надеюсь, кто-нибудь может дать мне подсказку.Большое спасибо!

...