Обратите внимание на количество слоев LSTM.Они печально известны тем, что легко переписывают данные.Сначала попробуйте меньшую модель (меньшее количество слоев) и постепенно увеличивайте количество единиц в слое.Если вы заметили плохие результаты, попробуйте добавить еще один слой LSTM, , но только после того, как был выполнен предыдущий шаг.
Что касается оптимизаторов, я должен признать, что никогда не использовал AMSGrad.Тем не менее, график с точки зрения точности, кажется, гораздо лучше в случае отключения AMSGrad.Вы можете видеть, что при использовании AMSGrad точность на тренировочном наборе намного лучше, чем на тестовом наборе, что является сильным признаком переобучения.
Не забывайте о простоте, экспериментируйте с простыми моделями и универсальными оптимизаторами.