MCTS на самом деле не уменьшал вычисления q-значений.
Для очень простого игрового ИИ Atari требуется гораздо больше, чем 3 ^ (19x19) q значений.
Проверьте глубокую сеть q, которая решила вашу проблему.
Мы могли бы представить нашу Q-функцию с помощью нейронной сети, которая принимает
состояние (четыре игровых экрана) и действие в качестве входа и выхода
соответствующее значение Q В качестве альтернативы мы могли бы взять только игровые экраны
в качестве входа и выхода Q-значение для каждого возможного действия. это
Подход имеет то преимущество, что если мы хотим выполнить Q-значение
обновить или выбрать действие с наибольшим значением Q, мы должны сделать только один
прямой проход через сеть и все Q-значения для всех действий
немедленно доступно.
https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/