Question

CE-потери суммируют потери по всем выходным узлам

Sum_i [- target_i * log (output_i)].

Производная CE-потерь: - target_i / output_i.

Поскольку для цели = 0 потеря и производная от потери равны нулю, независимо от фактического выхода, похоже, что только узел с целью = 1 получает обратную связь о том, как регулировать веса.

Я также заметил особенность в производной для выхода = 0.Как это обрабатывается во время обратного распространения?

Я не вижу, как веса корректируются, чтобы соответствовать цели = 0.Может быть, вы знаете лучше :)

Aleksa Janković · Answer 1 · 17 ноября 2018

Вы можете использовать формулу, которую вы упомянули, если ваш последний уровень формирует распределение вероятностей (таким образом, все узлы будут получать обратную связь, поскольку, когда выход одного нейрона последнего уровня увеличивается, другие должны уменьшаться, потому что они формируют распределение вероятности и должны складываться в 1). Вы можете добиться того, чтобы конечный слой формировал распределение вероятностей, применяя функцию активации softmax к конечному слою. Вы можете прочитать больше об этом здесь .

Перекрестная потеря энтропии за одно горячее кодирование

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Перекрестная потеря энтропии за одно горячее кодирование

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы