Чтобы быть более конкретным, c, при использовании обратного распространения в задаче мульти-категориальной классификации с использованием функции потерь кросс-энтропии, можно ли добиться повышения точности модели за счет расчета потерь для наблюдений, которые были правильными при идентификации категорию, но какую из них можно было более точно предсказать? Это кажется целесообразным, учитывая, что функция потери журнала может вычислять потери и для правильных ответов, а рассмотрение более низкой вероятности правильного ответа приведет к более высоким потерям, но я хотел бы понять передовой опыт и, если возможно, понять причина так или иначе. Я задаю этот вопрос после того, как прочитал здесь о функциях потерь: https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html. См. Первое синее поле для заметок и уравнение над ним. В связи с этим, если допустимы оба способа, какой подход использует функция энтропии категориальных потерь Кераса?