CE-потери суммируют потери по всем выходным узлам
Sum_i [- target_i * log (output_i)].
Производная CE-потерь: - target_i / output_i.
Поскольку для цели = 0 потеря и производная от потери равны нулю, независимо от фактического выхода, похоже, что только узел с целью = 1 получает обратную связь о том, как регулировать веса.
Я также заметил особенность в производной для выхода = 0.Как это обрабатывается во время обратного распространения?
Я не вижу, как веса корректируются, чтобы соответствовать цели = 0.Может быть, вы знаете лучше :)