Перекрестная потеря энтропии за одно горячее кодирование - PullRequest
0 голосов
/ 17 ноября 2018

CE-потери суммируют потери по всем выходным узлам

Sum_i [- target_i * log (output_i)].

Производная CE-потерь: - target_i / output_i.

Поскольку для цели = 0 потеря и производная от потери равны нулю, независимо от фактического выхода, похоже, что только узел с целью = 1 получает обратную связь о том, как регулировать веса.

Я также заметил особенность в производной для выхода = 0.Как это обрабатывается во время обратного распространения?

Я не вижу, как веса корректируются, чтобы соответствовать цели = 0.Может быть, вы знаете лучше :)

1 Ответ

0 голосов
/ 17 ноября 2018

Вы можете использовать формулу, которую вы упомянули, если ваш последний уровень формирует распределение вероятностей (таким образом, все узлы будут получать обратную связь, поскольку, когда выход одного нейрона последнего уровня увеличивается, другие должны уменьшаться, потому что они формируют распределение вероятности и должны складываться в 1). Вы можете добиться того, чтобы конечный слой формировал распределение вероятностей, применяя функцию активации softmax к конечному слою. Вы можете прочитать больше об этом здесь .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...