Question

Я пытался решить среду OpenAI MountainCarContinuous-v0 некоторое время, но я застрял.

Проведя недели в одиночку, пытаясь ее решить, я сейчас просто пытаюсь понять чужой код. Вот ссылка человека, который использовал для решения окружающей среды . В частности, мне нужна помощь с функцией потерь.

В GitHub код записывается как

self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()

Что делает эта функция потери? Если бы вы могли описать это простыми словами, это бы мне очень помогло.

Ankish Bansal · Answer 1 · 13 января 2019

На первом шаге normal-ditribution определяется с mean и variance. На следующем шаге функция потерь определяется следующим образом: -A*log(p(a)) + \lambda * entropy, где A - преимущество, p (a) - вероятность действия, которая выбирается из нормального-дистального расстояния, и, наконец, энтропия распределения добавляется в функцию потерь.

Мне нужна помощь в понимании подкрепления учебного кода

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Мне нужна помощь в понимании подкрепления учебного кода

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы