Является ли MonteCarloTreeSearch подходящим методом для решения этой проблемы (большое пространство действия / состояния)? - PullRequest
0 голосов
/ 09 января 2019

Я занимаюсь исследованием проблемы решения с конечным горизонтом с t = 1, ..., 40 периодами. На каждом временном шаге t (единственный) агент должен выбрать действие a (t) & # x2208; A (t), пока агент находится в состоянии s (t) & # x2208; S (T). Выбранное действие a (t) в состоянии s (t) влияет на переход в следующее состояние s (t + 1). Таким образом, существует проблема решения конечного горизонта.

В моем случае справедливо следующее: A (t) = A и S (t) = S, в то время как размер A равен 6 000 000, а размер S равен 10 ^ 8. Далее функция перехода является стохастической.

Поскольку я относительно новичок в теории поиска по дереву Монте-Карло (MCTS), я спрашиваю себя: является ли MCTS подходящим методом для моей задачи (в частности, из-за большого размера A и S и функции стохастического перехода?) ?)

Я уже читал много статей о MCTS (например, прогрессивное расширение и двойное прогрессивное расширение, что звучит довольно многообещающе), но, возможно, кто-то может рассказать мне о своем опыте применения MCTS к аналогичным проблемам или о подходящих методах для этой проблемы ( с большим пространством состояния / действия и стохастической функцией перехода).

1 Ответ

0 голосов
/ 12 января 2019

С 6 миллионами стохастических действий на состояние, я не думаю, что какая-либо симуляция реально сможет провести различие между этими движениями, не работая по существу вечно.

100 MM состояний не так много, однако вы можете хранить значение для всех них менее чем в гигабайте памяти, и что-то вроде итерации значения или итерации политики решит это оптимально намного быстрее.

...