Я уже тренировал CNN с SGD, и он тренируется хорошо.Однако, как только я тренирую модель с помощью решателя Адама, после почти 1001 * итерации она начинает увеличивать величину потерь.Не могли бы вы помочь мне интерпретировать это?
Ниже показано solver.prototxt
:
momentum: 0.99
momentum2: 0.999 #+
test_interval: 1000
test_iter: 40
weight_decay: 0.0005
base_lr: 0.0001