Я пытался решить среду OpenAI MountainCarContinuous-v0
некоторое время, но я застрял.
Проведя недели в одиночку, пытаясь ее решить, я сейчас просто пытаюсь понять чужой код. Вот ссылка человека, который использовал для решения окружающей среды . В частности, мне нужна помощь с функцией потерь.
В GitHub код записывается как
self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()
Что делает эта функция потери? Если бы вы могли описать это простыми словами, это бы мне очень помогло.