Эпсилон и скорость обучения снижаются в эпсилон жадных q обучения - PullRequest
0 голосов
/ 08 ноября 2018

Я понимаю, что эпсилон отмечает компромисс между разведкой и эксплуатацией. Сначала вы хотите, чтобы эпсилон был высоким, чтобы вы делали большие прыжки и изучали вещи. Когда вы узнаете о будущих наградах, эпсилон должен распасться, чтобы вы могли использовать более высокие Q-значения, которые вы нашли.

Однако, уменьшается ли скорость нашего обучения со временем в стохастической среде? Посты на SO, которые я видел, обсуждают только распад эпсилона.

Как мы можем установить наши эпсилон и альфа так, чтобы значения сходились?

1 Ответ

0 голосов
/ 08 ноября 2018

В начале вы хотите, чтобы эпсилон был высоким, чтобы вы делали большие прыжки и изучали вещи

Я думаю, вы ошиблись в эпсилоне и скорости обучения. Это определение на самом деле связано со скоростью обучения.

Снижение скорости обучения

Скорость обучения - это то, насколько вы прыгаете в поиске оптимальной политики. В терминах простого QLearning это то, сколько вы обновляете значение Q с каждым шагом.

enter image description here

Более высокий альфа означает, что вы обновляете свои значения Q большими шагами. Когда агент учится, вы должны уменьшить это, чтобы стабилизировать выход модели, который в конечном итоге сходится к оптимальной политике.

Эпсилон распад

Epsilon используется, когда мы выбираем конкретные действия на основе значений Q, которые у нас уже есть. В качестве примера, если мы выбираем чисто жадный метод (epsilon = 0), то мы всегда выбираем самое высокое значение q среди всех значений q для определенного состояния. Это вызывает проблемы в разведке, так как мы можем легко застрять в местном оптимуме.

Поэтому мы вводим случайность, используя эпсилон. Например, если epsilon = 0.3, мы выбираем случайные действия с вероятностью 0.3 независимо от фактического значения q.

Подробнее об эпсилон-жадной политике здесь .

В заключение, скорость обучения связана с тем, насколько велик ваш прыжок, а эпсилон - с тем, насколько случайно вы совершаете действие. Поскольку обучение продолжается, оба должны распасться, чтобы стабилизировать и использовать изученную политику, которая сходится к оптимальной.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...