Помните, что функция «потери» - это просто показатель ошибки для этой итерации. Для большинства моделей это повышается и падает в процессе обучения с общей тенденцией к снижению.
То, что вы видите, просто говорит о том, что раннее предположение было довольно хорошим для всего профиля весов моделей. Однако это предположение было «правильным по неправильным причинам». Есть много способов, которыми это может произойти. Один из них я видел несколько раз в модели изображения "собака против кошки". Перестановка данных иногда вызывает несколько ранних партий, в которых фотографии кошек обычно находятся в помещении, а фотографии собак - снаружи. Раннее обучение затем учится ассоциировать «кошку» с мебелью, а «собаку» с газоном / деревьями / цветами. Когда остальная часть набора данных обнаруживается, все эти обучающие узлы должны быть выброшены и переобучены, что вызывает большой всплеск функции потерь.