Блок-схема
У меня проблемы с пониманием 4-го и 5-го шагов в блок-схеме.
Прав ли я сказать, что значение Q конкретного состояния и действия совпадает со значением пары состояние-действие того же состояния и действия?
Для 4-го шага вычисляется ли возвращение для пары состояние-действие 'означает то же самое, что найти значение пары "состояние-действие" этого конкретного состояния?
На 5-м шаге "обновить функцию Q, взяв среднее из возвращаемых значений", не совсем понятно. Из того, что я понимаю, функция Q - это, по сути, значения пары «состояние-действие», помещенные в таблицу (таблица «Q»). Обновление означает изменение настроек пары «состояние-действие» отдельных состояний и их соответствующих действий (например, состояние 1 действие 1, состояние 3 действие 1, состояние 3 действие 2 и т. д. и т. д.). Я не уверен, что означает «средняя доходность». Требует ли я взять среднее значение доходности после x эпизодов? (Насколько я понимаю, доходность - это сумма наград в 1 эпизоде) (Итак, AVG = сумма возвратов / x) И что мне делать с этим средним? Я немного сбит с толку, когда они говорят «обновить функцию Q», потому что функция Q состоит из множества параметров, которые должны быть обновлены (отдельное значение пары состояние-действие), и я не уверен, какой из них они ссылаются на
Кроме того, какой смысл рассчитывать среднюю доходность? Поскольку значение пары состояния-действия для конкретного состояния и конкретного действия всегда будет одинаковым (например, если я всегда выполняю действие 3 в состоянии 4, я всегда получу значение = 2)
Спасибо:)