Question

Я знаю определение: - Оптимальная политика (pi) * удовлетворяет (pi) *> = (pi) для всех (pi) Оптимальная политика гарантированно существует, но не может быть уникальной. Что означают эти две строки?

Bahman Rouhani · Answer 1 · 11 июня 2019

Рассмотрим агента, цель которого - набрать очки в видеоигре. Здесь, когда агент учится играть в игру, мы присваиваем оценку его политике (например, счет игры). Оптимальная политика - это политика, которая приводит к наибольшему количеству набранных баллов. Например, может быть несколько способов собрать все оценки в игре, каждый из которых является оптимальной политикой.

Кроме того, как я только что упомянул, эти политики не уникальны, в некоторых случаях может быть бесконечное количество способов получить максимальный балл.

надеюсь, что это помогает.

Что такое оптимальность в обучении укреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Что такое оптимальность в обучении укреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы