В чем смысл параматизированной политики в обучении подкреплению? - PullRequest
0 голосов
/ 13 марта 2020

Политика - это просто отображение состояния на действия. Как оно параматизируется? Может кто-нибудь объяснить.

1 Ответ

1 голос
/ 18 марта 2020

Политика, используемая для обновления сетевых параметров. Политика отмечена ? (a | s, ?) = Pr {At = a | St = s, ?t = ?}, что означает, что политика ? - это вероятность совершения действия a в состоянии s, а параметры - ?. Пожалуйста, проверьте следующую ссылку для деталей. https://towardsdatascience.com/policy-based-reinforcement-learning-the-easy-way-8de9a3356083

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...