В настоящее время я тестирую сеть LSTM.Я печатаю потерю прогноза на тренировочном примере до обратного распространения и после обратного распространения.Было бы разумно, чтобы после потери всегда было меньше, чем до потери, потому что сеть только что обучалась на этом примере.
Тем не менее, я заметил, что примерно в 100-м учебном примере сеть начинает давать более неточное предсказание после обратного распространения, чем до обратного распространения в учебном примере.
Ожидается ли, что сеть до потери всегда будет выше потери после потери?Если да, то есть ли причины, по которым это происходит?
Для ясности, для первых сотен примеров сеть, кажется, тренируется правильно и работает нормально.