Хорошо, так что это на самом деле не отвечает на вопрос, который вы изначально задавали, но оно дает решение проблемы, которую вы упомянули в комментариях.
Такие проблемы, как работа с пространством непрерывных действий, обычно решаются не путем изменения меры ошибки, а путем изменения архитектуры всей сети. Это позволяет вам продолжать использовать ту же самую информативную информацию об ошибках, в то же время решая проблему, которую вы хотите решить.
Некоторые возможные архитектурные изменения, которые могли бы достичь этого, обсуждаются в решениях этого вопроса . По моему мнению, я бы предложил использовать модифицированную технику Q-обучения, когда пространства состояний и действий представлены самоорганизующимися картами, что обсуждается в статье, упомянутой в ссылке выше.
Надеюсь, это поможет.