Введение алгоритма градиентов политики утверждает, что алгоритмы политики лучше, потому что он напрямую оптимизирует политику без необходимости сначала вычислять Q.Почему они используют Q в уравнении тогда?Как они вычисляют все это напрямую, не вычисляя сначала функцию Q?
Теория градиента политики