Функция оценки ELI5 и политика softmax для градиента политики - PullRequest
0 голосов
/ 22 сентября 2018

H, я слежу за лекцией Дэвида Сильвера о градиентах политики , но у меня возникают проблемы с получением баллов, которые он зарабатывает при внедрении функции оценки.

В момент времени 33: 44 он оправдывает использование уловки отношения правдоподобия следующим образом: «Переписывая градиент таким образом, мы можем принимать ожидания. Вычисляя ожидание этой вещиэто сложно, но вычислить ожидание этой вещи легко, потому что у нас есть эта политика, и мы придерживаемся этой политики ".

Итак, мои вопросы к этому слайду следующие:

  • какие ожидания мы вычисляем?Это пи (с, а) - вероятность совершения действия а в состоянии с ?
  • зачем нам вообще этого ожидать?
  • Почему вычисление ожидания log * pi (s, a) проще?(может быть, пример, пожалуйста)

И затем, когда мы переходим к следующему слайду , он показывает функцию оценки для политики softmax.Я не понимаю, как он получил это вообще ... это просто исчисление?Не могли бы вы показать шаги?

Спасибо :)

...