Каково полное значение коэффициента дисконтирования γ (гамма) в обучении с подкреплением? - PullRequest
0 голосов
/ 23 января 2019

Я относительно новичок в понятиях машинного обучения, и я читал несколько лекций / учебных пособий по Q-Learning, таких как: Стэнфордская лекция по обучению в области подкрепления

Все они даюткороткие или расплывчатые ответы о том, что именно является гамма-функцией в функции политики.Самое понятное объяснение, которое я нашел до сих пор, гласит: «Сколько мы ценим будущие награды».

Неужели это так просто?Является ли гамма определяющей, как мы задерживаем вознаграждение / смотрим в будущее?Например, знание выбора варианта B в следующем примере:

В случае двух вариантов, A и B, A даст немедленную выплату 10, затем выплату еще 10, а B даст немедленную выплату0, а затем 30.

Итак, мои вопросы:

  1. Что такое глубокое объяснение гаммы?
  2. Как мы ее устанавливаем?
  3. Если мы не заглядываем в будущее, как мы можем смотреть в будущее?

1 Ответ

0 голосов
/ 24 января 2019

Параметр гамма действительно используется, чтобы сказать что-то о том, как вы цените свои будущие награды. Более подробно ваше дисконтированное вознаграждение (которое используется в обучении) выглядит так:

Награда со скидкой:

Это означает, что экспоненциальная функция решает, как будут учитываться будущие награды. В качестве примера, давайте сравним 2 значения гаммы:

гамма = 0,9

гамма = 0,99

Давайте посмотрим, когда гамма ** шагов достигает 0,5. В случае гамма = 0,9 это 6 шагов. С гаммой = 0,99 это больше похоже на 60 шагов. Это означает, что для гаммы = 0,9 вознаграждение за 6 шагов вдвое менее важно, чем немедленное вознаграждение, но для гаммы = 0,99 то же самое справедливо для 60 шагов. Таким образом, спад гораздо менее значим для гаммы = 0,99, а вознаграждение в будущем будет выше, чем при гамме = 0,9. Чтобы установить, какой гамма-параметр вам нужен для вашего приложения, важно иметь некоторое представление о том, сколько шагов в вашей среде вам нужно, чтобы получить вознаграждение.

Чтобы вернуться к вашим вариантам А и В. А должен иметь низкое значение гаммы, так как немедленная награда очень важна. Вариант B должен иметь более высокое значение гаммы, потому что награда в будущем.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...