У меня есть некоторые заблуждения относительно понятий KLD и CE.Я знаю, что потеря CE дает те же результаты, что и минимизация KL-дивергенции.
(KL divergence(P||Q) = cross entropy(P,Q) - entropy(P). because P is constant.)
(Когда Q
- это распределение истинности относительно земли)
В задаче классификации мы обычно используем CE(P,Q)
не CE(Q,P)
.
Почему мы не используем CE(Q,P)
?
KLD(P||Q)
не то же самое, что KLD(Q||P)
, тогда, я думаю, CE(Q,P)
может помочь этому CE(P,Q)
не могу сделать.
Чего мне не хватает?