Я занимаюсь исследованием проблемы решения с конечным горизонтом с t = 1, ..., 40 периодами. На каждом временном шаге t (единственный) агент должен выбрать действие a (t) & # x2208; A (t), пока агент находится в состоянии s (t) & # x2208; S (T). Выбранное действие a (t) в состоянии s (t) влияет на переход в следующее состояние s (t + 1). Таким образом, существует проблема решения конечного горизонта.
В моем случае справедливо следующее: A (t) = A и S (t) = S, в то время как размер A равен 6 000 000, а размер S равен 10 ^ 8. Далее функция перехода является стохастической.
Поскольку я относительно новичок в теории поиска по дереву Монте-Карло (MCTS), я спрашиваю себя: является ли MCTS подходящим методом для моей задачи (в частности, из-за большого размера A и S и функции стохастического перехода?) ?)
Я уже читал много статей о MCTS (например, прогрессивное расширение и двойное прогрессивное расширение, что звучит довольно многообещающе), но, возможно, кто-то может рассказать мне о своем опыте применения MCTS к аналогичным проблемам или о подходящих методах для этой проблемы ( с большим пространством состояния / действия и стохастической функцией перехода).