Крайне нежелательно управлять многими штатами. Причина действительно проста - когда в памяти много состояний, к тому времени, когда графический процессор находит это состояние и соответствующее ему действие, игра уже переходит в другое состояние.
Таким образом, решение заключается в использовании нечто более продвинутое, чем наивное Q-обучение. Смотрите Deep Q-learning и другие популярные варианты RL, такие как A3 C. Они помогают избежать этой проблемы