Рассмотрим агента, цель которого - набрать очки в видеоигре. Здесь, когда агент учится играть в игру, мы присваиваем оценку его политике (например, счет игры). Оптимальная политика - это политика, которая приводит к наибольшему количеству набранных баллов. Например, может быть несколько способов собрать все оценки в игре, каждый из которых является оптимальной политикой.
Кроме того, как я только что упомянул, эти политики не уникальны, в некоторых случаях может быть бесконечное количество способов получить максимальный балл.
надеюсь, что это помогает.