Мне нужна помощь в понимании подкрепления учебного кода - PullRequest
0 голосов
/ 13 января 2019

Я пытался решить среду OpenAI MountainCarContinuous-v0 некоторое время, но я застрял.

Проведя недели в одиночку, пытаясь ее решить, я сейчас просто пытаюсь понять чужой код. Вот ссылка человека, который использовал для решения окружающей среды . В частности, мне нужна помощь с функцией потерь.

В GitHub код записывается как

self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()

Что делает эта функция потери? Если бы вы могли описать это простыми словами, это бы мне очень помогло.

1 Ответ

0 голосов
/ 13 января 2019

На первом шаге normal-ditribution определяется с mean и variance. На следующем шаге функция потерь определяется следующим образом: -A*log(p(a)) + \lambda * entropy, где A - преимущество, p (a) - вероятность действия, которая выбирается из нормального-дистального расстояния, и, наконец, энтропия распределения добавляется в функцию потерь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...