Почему значение потерь решателя Адама возрастает после 100 000 итераций? - PullRequest
0 голосов
/ 05 декабря 2018

Я уже тренировал CNN с SGD, и он тренируется хорошо.Однако, как только я тренирую модель с помощью решателя Адама, после почти 1001 * итерации она начинает увеличивать величину потерь.Не могли бы вы помочь мне интерпретировать это?

enter image description here

Ниже показано solver.prototxt:

momentum: 0.99
momentum2: 0.999  #+
test_interval: 1000
test_iter: 40
weight_decay: 0.0005
base_lr:       0.0001
...