Как мне настроить пространство состояний для q-обучения? - PullRequest
0 голосов
/ 09 мая 2020

Это очевидно очень очевидно, и в основном c, потому что я не могу найти по нему никаких руководств, но как мне настроить пространство состояний для среды q-Learning?

Если я понимаю правильно, каждое состояние должно быть связано с одним значением, верно? Если да, то что мне делать, если у меня более одной входной переменной? По сути:

stateSpace = ???

Если у меня действительно есть пространство состояний, как мне изменить состояние? Скажем, он основан на трех переменных: V1, V2 и V3. Алгоритм q-обучения получает только однозначное представление этого состояния, верно? Как мне использовать переменные и пространство состояний, чтобы вернуть одно значение, представляющее состояние?

Извините, если это очевидно / basi c, спасибо за ваше время.

1 Ответ

0 голосов
/ 09 мая 2020

Думаю, вы можете быть немного сбиты с толку относительно параметров, задействованных в Q Learning. Вот что у нас есть:

Награда: награда, которую получает агент за переход в состояние. Это может быть положительное или отрицательное значение, но должно быть одним числом.

Состояние: Вся необходимая информация о состоянии игры.

Наблюдение: тензор, содержащий информацию, которую агенту разрешено знать о состоянии игры.

Q-Value: «Качество» выполнения определенного действия.

Мы можем обучить сеть, сравнивая ожидаемое качество определенного действия (насколько это улучшает наши награда в долгосрочной перспективе) и то, что мы на самом деле обнаружили после этого шага.

На каждом тике мы обновляем состояние, а затем агент делает новое наблюдение, которое дает ему новые входные значения для работы.

...