У меня недостаточно информации, но эта интуиция может объяснить, что вы видите.
Хотя у Адама есть адаптивный размер шага, у SGD нет. Это означает, что SGD может начать подпрыгивать в овраге, когда размер шага слишком велик.
Изображение относится к следующей статье https://blog.paperspace.com/intro-to-optimization-momentum-rmsprop-adam/
Если размер шага остается постоянным, оптимизатор будет продолжать подпрыгивать между «стенками». Вместо этого Адам может уменьшить размер шага, что приводит к лучшим результатам.
Если вы попытаетесь уменьшить размер шага в SGD, вы, вероятно, получите лучшие результаты, однако количество необходимых итераций увеличится.