PyTorch - Превосходная производительность модели за счет неправильного использования функции потерь (вероятность отрицательного журнала)? - PullRequest
1 голос
/ 20 июня 2020

Я неправильно прочитал NLLLoss() PyTorch и случайно передал вероятности моей модели функции потерь вместо вероятностей журнала моей модели, чего и ожидает функция. Однако, когда я обучаю модель этой неправильно используемой функции потерь, модель (а) обучается быстрее, (б) обучается более стабильно, (б) достигает меньших потерь и (г) лучше справляется с задачей классификации.

У меня нет минимального рабочего примера, но мне любопытно, испытал ли это кто-нибудь еще или знает, почему? Любые возможные гипотезы?

Одна из моих гипотез заключается в том, что градиент по отношению к неправильно используемой функции потерь более стабилен, потому что производная не масштабируется с вероятностью выхода модели 1 /.

...