Я понимаю, что в полностью наблюдаемой среде (шахматы / go и др. c) вы можете запустить MCTS с оптимальной сетью политик для целей будущего планирования. Это позволит вам выбирать действия для игрового процесса, что приведет к максимальному ожидаемому возврату из этого состояния.
Однако, в частично наблюдаемой среде, нам все еще нужно запускать MCTS во время игры? Почему мы не можем просто выбрать максимальное действие из обученной оптимальной политики с учетом текущего состояния? Какую утилиту здесь использует MCTS
Я новичок в обучении с подкреплением и пытаюсь понять цель MCTS / планирования в частично наблюдаемых средах.