Я тренирую модель. Чтобы преодолеть переоснащение, я выполнил оптимизацию, увеличение данных и т. Д. У меня есть обновленный LR (я пробовал и для SGD, и для Адама), и когда есть плато (также пробовал шаг), скорость обучения снижается в несколько раз, пока достигает LR 1e-08, но не опускается ниже этого уровня, и проверка моей модели застревает после этого момента. Я попытался передать параметр epsilon Адаму, чтобы предложить меньшее значение, но он все равно застрял на LR 1e-08. Я также выдерживаю снижение веса, но это не меняет ситуацию. Также не удалось установить для amsgrad значение true.
Я провел некоторое исследование, и люди предполагают, что у оптимизатора Адама есть присущие ему проблемы, но ничего не говорится о скорости обучения - и каждое обсуждение добавляло, что с SGD проблем нет.
Почему это? Это ошибка или она спроектирована так, потому что авторы считают ее бессмысленно малой ценностью после этого? Кажется, что это действительно помогло бы иметь меньшую скорость обучения для моего набора данных, потому что все выглядит хорошо, пока скорость обучения не упадет до LR 1e-08.