Я неправильно прочитал NLLLoss()
PyTorch и случайно передал вероятности моей модели функции потерь вместо вероятностей журнала моей модели, чего и ожидает функция. Однако, когда я обучаю модель этой неправильно используемой функции потерь, модель (а) обучается быстрее, (б) обучается более стабильно, (б) достигает меньших потерь и (г) лучше справляется с задачей классификации.
У меня нет минимального рабочего примера, но мне любопытно, испытал ли это кто-нибудь еще или знает, почему? Любые возможные гипотезы?
Одна из моих гипотез заключается в том, что градиент по отношению к неправильно используемой функции потерь более стабилен, потому что производная не масштабируется с вероятностью выхода модели 1 /.