Думаю, вы можете быть немного сбиты с толку относительно параметров, задействованных в Q Learning. Вот что у нас есть:
Награда: награда, которую получает агент за переход в состояние. Это может быть положительное или отрицательное значение, но должно быть одним числом.
Состояние: Вся необходимая информация о состоянии игры.
Наблюдение: тензор, содержащий информацию, которую агенту разрешено знать о состоянии игры.
Q-Value: «Качество» выполнения определенного действия.
Мы можем обучить сеть, сравнивая ожидаемое качество определенного действия (насколько это улучшает наши награда в долгосрочной перспективе) и то, что мы на самом деле обнаружили после этого шага.
На каждом тике мы обновляем состояние, а затем агент делает новое наблюдение, которое дает ему новые входные значения для работы.