Нужен ли поиск по дереву Монте-Карло в частично наблюдаемых средах во время игры? - PullRequest
1 голос
/ 22 апреля 2020

Я понимаю, что в полностью наблюдаемой среде (шахматы / go и др. c) вы можете запустить MCTS с оптимальной сетью политик для целей будущего планирования. Это позволит вам выбирать действия для игрового процесса, что приведет к максимальному ожидаемому возврату из этого состояния.

Однако, в частично наблюдаемой среде, нам все еще нужно запускать MCTS во время игры? Почему мы не можем просто выбрать максимальное действие из обученной оптимальной политики с учетом текущего состояния? Какую утилиту здесь использует MCTS

Я новичок в обучении с подкреплением и пытаюсь понять цель MCTS / планирования в частично наблюдаемых средах.

...