Неустойчивость. Это на самом деле распространено. Посмотрите на опубликованные статьи, и вы увидите то же самое. Во время градиентного спуска могут быть «грубые пятна» в ландшафте градиента, что дает локально плохое решение, что приводит к большим потерям.
Сказав, что некоторые из этих пиков могут фактически означать, что вы сделали плохой гиперпараметр и выбор сетевой архитектуры. По моему опыту, одной из возможных причин всплесков является использование снижения веса. Снижение веса обеспечивает регуляризацию, но в своей работе я обнаружил, что это вызывает много нестабильности. Поэтому в настоящее время я больше им не пользуюсь.
Шипы на вашем графике выглядят не так уж плохо, я бы об этом не беспокоился.