Выбор действий зависит от вашего алгоритма и стратегии исследования. Например, в Q обучения вы можете сделать что-то, называемое эпсилон жадные исследования. Espilon% времени, когда вы выбираете случайное действие, а остальные% времени, когда вы выполняете действие с наибольшим ожидаемым значением (жадное действие).
Так, как написать функцию, которая отображает наблюдение и
действие с числовым значением?
С помощью наград вы можете приблизить состояние, значения действий. Затем используйте награды и (в зависимости от алгоритма) значение следующего состояния. Например, формула обновления обучения Q:
Вы обновляете старое значение Q (s, a) с помощью вознаграждения и вашей оценки оптимального будущего значения из следующего состояния.
В табличном обучении Q вы можете оценивать каждое значение Q (s, a) индивидуально и обновлять значение каждый раз, когда вы посещаете состояние и выполняете действие. В приближении функции Q обучения вы используете что-то вроде нейронной сети для аппроксимации значений Q (s, a). Выбирая, какое действие выбрать, вы вводите состояние и действие в нейронную сеть и возвращаете приблизительные значения нейронной сети для каждого действия. Затем выберите действие, основанное на вашем алгоритме (например, жадный метод epsilon). Когда ваш агент взаимодействует со средой, вы обучаете и обновляете нейронную сеть новыми данными для улучшения приближения функции.