Эпсилон-жадный алгоритм - PullRequest
0 голосов
/ 18 июня 2019

Я понимаю эпсилон-жадный алгоритм, но есть одна путаница.

  1. Это среднее вознаграждение или значение , которое отслеживается?В большинстве случаев это объясняется в контексте многорукого бандита.Однако в проблеме многорукого бандита нет различия между наградой / ценностью.
  2. Является ли эпсилон-жадный алгоритм подмножеством Q-обучения?Похоже, что расплывчатое определение Q-обучения: аппроксимация оптимальной Q-функции с использованием прошлого опыта.

1 Ответ

1 голос
/ 18 июня 2019

Эпсилон-жадный - это политика, а не алгоритм.Это исключает проблемы отдельных действий: вы выбираете действие в соответствии с

argmax Q(s,a) with probability 1-epsilon
random otherwise

. Вы можете использовать с Q-learning, SARSA, DDPG, политическим градиентом, ...

...