Политика - это просто отображение состояния на действия. Как оно параматизируется? Может кто-нибудь объяснить.
Политика, используемая для обновления сетевых параметров. Политика отмечена ? (a | s, ?) = Pr {At = a | St = s, ?t = ?}, что означает, что политика ? - это вероятность совершения действия a в состоянии s, а параметры - ?. Пожалуйста, проверьте следующую ссылку для деталей. https://towardsdatascience.com/policy-based-reinforcement-learning-the-easy-way-8de9a3356083