Связан ли переход процесса принятия решений Маркова с действием? - PullRequest
1 голос
/ 11 мая 2019

Я знаю, что когда свойство Маркова выполнено, следующее состояние относится только к текущему состоянию.Но в Марковском процессе принятия решений (MDP) нам нужно выбрать действие и выполнить его, чтобы осуществить этот переход.Означает ли это, что переходы между состояниями связаны с выбранным действием, а не только с состоянием?И нарушает ли эта ситуация свойство Маркова?

Большая часть обучения с подкреплением основана на MDP. Если в MDP, мы считаем, что выбранное действие является фактором в свойстве Маркова, поэтому в AlphaGo следующее состояние не простоОтносится к текущему состоянию и выбранному действию. На него также влияют действия противника.Удовлетворяет ли Go-игра марковской собственности?Разве алгоритм обучения подкрепления не требует, чтобы среда полностью удовлетворяла свойству Маркова?Очень запутанно.

Если в Go-игре мы по-прежнему считаем, что переход состояния связан только с текущим состоянием, то проблем нет.

Соответствует ли игра Go свойству Markov Property?Является ли выбранное действие в MDP фактором влияния между переходами?Разве алгоритм RL (на основе MDP, а не POMDP) ​​не требует, чтобы среда полностью удовлетворяла свойству Маркова?

1 Ответ

1 голос
/ 11 мая 2019

Это не тот алгоритм, который обладает свойством Маркова.Свойство Markov является свойством установки задачи и зависит от того, какие состояния вы используете.

Но да, в MDP переход состояния зависит не только от текущего состояния, но и от действий, предпринимаемыхконтроллер.Но это не зависит от каких-либо более ранних состояний.Это свойство Маркова.

Когда вы находитесь в заданном состоянии, не имеет значения, как вы туда попали.Текущее состояние содержит всю информацию, необходимую для прогнозирования или принятия решения.Это значительно упрощает алгоритм принятия решений, поскольку ему не требуется никакой памяти.

Чтобы MDP имел смысл с оппонентом, вы должны думать о нем как о части окружения.Оппонент делает детерминированный (или даже рандомизированный) выбор, но этот выбор основан только на текущем состоянии доски.

Строго говоря, в Го вы также должны избегать повторения предыдущих позиций доски.Поэтому, если вы используете текущую позицию на доске в качестве своего состояния, свойство Маркова нарушается: вы можете получить дополнительные соответствующие знания, просматривая прошлые позиции на доске.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...