Это не тот алгоритм, который обладает свойством Маркова.Свойство Markov является свойством установки задачи и зависит от того, какие состояния вы используете.
Но да, в MDP переход состояния зависит не только от текущего состояния, но и от действий, предпринимаемыхконтроллер.Но это не зависит от каких-либо более ранних состояний.Это свойство Маркова.
Когда вы находитесь в заданном состоянии, не имеет значения, как вы туда попали.Текущее состояние содержит всю информацию, необходимую для прогнозирования или принятия решения.Это значительно упрощает алгоритм принятия решений, поскольку ему не требуется никакой памяти.
Чтобы MDP имел смысл с оппонентом, вы должны думать о нем как о части окружения.Оппонент делает детерминированный (или даже рандомизированный) выбор, но этот выбор основан только на текущем состоянии доски.
Строго говоря, в Го вы также должны избегать повторения предыдущих позиций доски.Поэтому, если вы используете текущую позицию на доске в качестве своего состояния, свойство Маркова нарушается: вы можете получить дополнительные соответствующие знания, просматривая прошлые позиции на доске.