почему политика градиента политики использует функцию Q в обучении подкреплению? - PullRequest
0 голосов
/ 20 сентября 2019

Введение алгоритма градиентов политики утверждает, что алгоритмы политики лучше, потому что он напрямую оптимизирует политику без необходимости сначала вычислять Q.Почему они используют Q в уравнении тогда?Как они вычисляют все это напрямую, не вычисляя сначала функцию Q?

Теория градиента политики

...