Эпсилон-жадный - это политика, а не алгоритм.Это исключает проблемы отдельных действий: вы выбираете действие в соответствии с
argmax Q(s,a) with probability 1-epsilon
random otherwise
. Вы можете использовать с Q-learning, SARSA, DDPG, политическим градиентом, ...