Глядя на ваши графики, я не думаю, что сеть действительно чему-то учится.
Я предлагаю вам взглянуть на следующее:
Есть ли 0 'ввод данных в изображениях.
Являются ли градиенты слишком большими или слишком маленькими.
Являются ли градиенты почти постоянными в нескольких пакетах.
Одинаковы ли масштабы всех изображений.
Правильно ли закодированы классы в виде векторов с одним нагревом.