H, я слежу за лекцией Дэвида Сильвера о градиентах политики , но у меня возникают проблемы с получением баллов, которые он зарабатывает при внедрении функции оценки.
В момент времени 33: 44 он оправдывает использование уловки отношения правдоподобия следующим образом: «Переписывая градиент таким образом, мы можем принимать ожидания. Вычисляя ожидание этой вещиэто сложно, но вычислить ожидание этой вещи легко, потому что у нас есть эта политика, и мы придерживаемся этой политики ".
Итак, мои вопросы к этому слайду следующие:
- какие ожидания мы вычисляем?Это пи (с, а) - вероятность совершения действия а в состоянии с ?
- зачем нам вообще этого ожидать?
- Почему вычисление ожидания log * pi (s, a) проще?(может быть, пример, пожалуйста)
И затем, когда мы переходим к следующему слайду , он показывает функцию оценки для политики softmax.Я не понимаю, как он получил это вообще ... это просто исчисление?Не могли бы вы показать шаги?
Спасибо :)