У меня многократная потеря термов, где term3 взвешивается гиперпараметром w.
loss = term1+0.006*term2+w*term3
Я пытаюсь выполнить сеточный поиск моего параметра w, используя значения от 0,001 до 1x10 ^ 17 в шагов, кратных 10. Моя модель была предварительно обучена ранее в другом наборе данных, но с термином 3, установленным в ноль.
Теперь я хотел бы загрузить предварительно подготовленную модель и переобучить мою модель для 25 эпох для каждого значения в поиске сетки. с влиянием term3. Удивительно, но абсурдно высокие значения сводятся почти к тем же результатам, что и низкие значения. Для лучшего понимания моя модель представляет собой сеть кодера / декодера. Я думал, что чем выше значение term3 взвешено в потере, тем больше будут подправлены параметры моей модели, и, в конце концов, я получу более странные результаты в сгенерированных выборках. Я что-то здесь упускаю?
Скорость обучения и оптимизаторы остаются неизменными на протяжении всего обучения.