Как работает Монте-Карло «Изучение старта»? - PullRequest
0 голосов
/ 15 апреля 2020

Блок-схема

Flow Chart

У меня проблемы с пониманием 4-го и 5-го шагов в блок-схеме.

Прав ли я сказать, что значение Q конкретного состояния и действия совпадает со значением пары состояние-действие того же состояния и действия?

Для 4-го шага вычисляется ли возвращение для пары состояние-действие 'означает то же самое, что найти значение пары "состояние-действие" этого конкретного состояния?

На 5-м шаге "обновить функцию Q, взяв среднее из возвращаемых значений", не совсем понятно. Из того, что я понимаю, функция Q - это, по сути, значения пары «состояние-действие», помещенные в таблицу (таблица «Q»). Обновление означает изменение настроек пары «состояние-действие» отдельных состояний и их соответствующих действий (например, состояние 1 действие 1, состояние 3 действие 1, состояние 3 действие 2 и т. д. и т. д.). Я не уверен, что означает «средняя доходность». Требует ли я взять среднее значение доходности после x эпизодов? (Насколько я понимаю, доходность - это сумма наград в 1 эпизоде) (Итак, AVG = сумма возвратов / x) И что мне делать с этим средним? Я немного сбит с толку, когда они говорят «обновить функцию Q», потому что функция Q состоит из множества параметров, которые должны быть обновлены (отдельное значение пары состояние-действие), и я не уверен, какой из них они ссылаются на

Кроме того, какой смысл рассчитывать среднюю доходность? Поскольку значение пары состояния-действия для конкретного состояния и конкретного действия всегда будет одинаковым (например, если я всегда выполняю действие 3 в состоянии 4, я всегда получу значение = 2)

Спасибо:)

...