Question

Политика - это просто отображение состояния на действия. Как оно параматизируется? Может кто-нибудь объяснить.

M.zubair Islam · Answer 1 · 18 марта 2020

Политика, используемая для обновления сетевых параметров. Политика отмечена ? (a | s, ?) = Pr {At = a | St = s, ?t = ?}, что означает, что политика ? - это вероятность совершения действия a в состоянии s, а параметры - ?. Пожалуйста, проверьте следующую ссылку для деталей. https://towardsdatascience.com/policy-based-reinforcement-learning-the-easy-way-8de9a3356083

В чем смысл параматизированной политики в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

В чем смысл параматизированной политики в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы