Question

У меня многократная потеря термов, где term3 взвешивается гиперпараметром w.

loss = term1+0.006*term2+w*term3

Я пытаюсь выполнить сеточный поиск моего параметра w, используя значения от 0,001 до 1x10 ^ 17 в шагов, кратных 10. Моя модель была предварительно обучена ранее в другом наборе данных, но с термином 3, установленным в ноль.

Теперь я хотел бы загрузить предварительно подготовленную модель и переобучить мою модель для 25 эпох для каждого значения в поиске сетки. с влиянием term3. Удивительно, но абсурдно высокие значения сводятся почти к тем же результатам, что и низкие значения. Для лучшего понимания моя модель представляет собой сеть кодера / декодера. Я думал, что чем выше значение term3 взвешено в потере, тем больше будут подправлены параметры моей модели, и, в конце концов, я получу более странные результаты в сгенерированных выборках. Я что-то здесь упускаю?

Скорость обучения и оптимизаторы остаются неизменными на протяжении всего обучения.

Модель сходится к аналогичному выходу независимо от величины потерь

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Модель сходится к аналогичному выходу независимо от величины потерь

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы