Ах да, хорошее обратное распространение. Радость в том, что на самом деле не имеет значения (с точки зрения реализации), какую функцию ошибок вы используете, пока она дифференцируема. Когда вы знаете, как рассчитать перекрестную энтропию для каждой единицы вывода (см. вики-статью ), вы просто берете частную производную этой функции, чтобы найти веса для скрытого слоя, и еще раз для входных данных. слой.
Однако, если ваш вопрос не о внедрении, а скорее о трудностях обучения, то вы получите свою работу за вас. Разные функции ошибок хороши в разных вещах (лучше всего просто обосновать это на основании определения функции ошибок), и эта проблема усугубляется другими параметрами, такими как скорость обучения.
Надеюсь, это поможет, дайте мне знать, если вам нужна другая информация; ваш вопрос был немного расплывчатым ...