У меня есть код, в котором я комбинирую 2 функции потерь.
criterion = torch.nn.BCELoss()
criterion2 = torch.nn.MSELoss()
...
loss1 = criterion(y_pred1, y1)
loss2 = criterion2(y_pred2, y2)
loss = loss1 + loss2*0.1
optimizer.zero_grad()
loss.backward()
optimizer.step()
Влияет ли умножение второй потери на 0.1 на градиенты?Моя цель состоит в том, чтобы уменьшить важность второй потери, но в отличие от печати эта настройка, кажется, мало что дает.Действительно ли это делает второй проигрыш менее важным во время обновления?