Что такое оптимальность в обучении укреплению? - PullRequest
1 голос
/ 11 июня 2019

Я знаю определение: - Оптимальная политика (pi) * удовлетворяет (pi) *> = (pi) для всех (pi) Оптимальная политика гарантированно существует, но не может быть уникальной. Что означают эти две строки?

1 Ответ

1 голос
/ 11 июня 2019

Рассмотрим агента, цель которого - набрать очки в видеоигре. Здесь, когда агент учится играть в игру, мы присваиваем оценку его политике (например, счет игры). Оптимальная политика - это политика, которая приводит к наибольшему количеству набранных баллов. Например, может быть несколько способов собрать все оценки в игре, каждый из которых является оптимальной политикой.

Кроме того, как я только что упомянул, эти политики не уникальны, в некоторых случаях может быть бесконечное количество способов получить максимальный балл.

надеюсь, что это помогает.

...