AgnosticCucumber 18 июня 2019 12

Эпсилон-жадный алгоритм

AgnosticCucumber / 18 июня 2019

Я понимаю эпсилон-жадный алгоритм, но есть одна путаница.

Это среднее вознаграждение или значение , которое отслеживается?В большинстве случаев это объясняется в контексте многорукого бандита.Однако в проблеме многорукого бандита нет различия между наградой / ценностью.
Является ли эпсилон-жадный алгоритм подмножеством Q-обучения?Похоже, что расплывчатое определение Q-обучения: аппроксимация оптимальной Q-функции с использованием прошлого опыта.

1 Ответ

Simon / 18 июня 2019

Эпсилон-жадный - это политика, а не алгоритм.Это исключает проблемы отдельных действий: вы выбираете действие в соответствии с

argmax Q(s,a) with probability 1-epsilon
random otherwise

. Вы можете использовать с Q-learning, SARSA, DDPG, политическим градиентом, ...

...