Снижение скорости обучения по сравнению с совокупным вознаграждением? - PullRequest
0 голосов
/ 17 июня 2020

В глубоком обучении с подкреплением есть ли способ снизить скорость обучения по отношению к совокупному вознаграждению. Я имею в виду, снижается скорость обучения, когда агент может обучаться и максимизировать вознаграждение?

1 Ответ

0 голосов
/ 20 июня 2020

Обычно скорость обучения изменяют с помощью количества шагов, поэтому, безусловно, можно было бы изменить скорость обучения в зависимости от совокупного вознаграждения.

Один из рисков заключается в том, что вы не знаете, какое вознаграждение вам ищут в начале обучения, поэтому слишком раннее снижение скорости обучения - распространенная проблема. Если вы нацелитесь на вознаграждение в 80, при этом скорость обучения резко снизится по мере того, как вы достигнете этого значения, вы никогда не узнаете, мог ли ваш алгоритм достичь 90, поскольку обучение остановится на 80.

Другая проблема заключается в установке цель слишком высока. Если вы установите целевое значение 100, что означает, что скорость обучения не снижается по мере достижения вами 85, нестабильность может означать, что алгоритм не может достаточно хорошо сходиться, чтобы достичь 90.

В общем, я думаю, что люди пытаются разнообразные расписания обучения, и, если возможно, иногда позволяйте алгоритмам работать достаточно времени, чтобы увидеть, сходятся ли они.

...