почему политика градиента политики использует функцию Q в обучении подкреплению?

Введение алгоритма градиентов политики утверждает, что алгоритмы политики лучше, потому что он напрямую оптимизирует политику без необходимости сначала вычислять Q.Почему они используют Q в уравнении тогда?Как они вычисляют все это напрямую, не вычисляя сначала функцию Q?

Теория градиента политики

почему политика градиента политики использует функцию Q в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

почему политика градиента политики использует функцию Q в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы