Question

H, я слежу за лекцией Дэвида Сильвера о градиентах политики , но у меня возникают проблемы с получением баллов, которые он зарабатывает при внедрении функции оценки.

В момент времени 33: 44 он оправдывает использование уловки отношения правдоподобия следующим образом: «Переписывая градиент таким образом, мы можем принимать ожидания. Вычисляя ожидание этой вещиэто сложно, но вычислить ожидание этой вещи легко, потому что у нас есть эта политика, и мы придерживаемся этой политики ".

Итак, мои вопросы к этому слайду следующие:

какие ожидания мы вычисляем?Это пи (с, а) - вероятность совершения действия а в состоянии с ?
зачем нам вообще этого ожидать?
Почему вычисление ожидания log * pi (s, a) проще?(может быть, пример, пожалуйста)

И затем, когда мы переходим к следующему слайду , он показывает функцию оценки для политики softmax.Я не понимаю, как он получил это вообще ... это просто исчисление?Не могли бы вы показать шаги?

Спасибо :)

Функция оценки ELI5 и политика softmax для градиента политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Функция оценки ELI5 и политика softmax для градиента политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы