Question

В контексте сетей Double Q или Deuling Q, я не уверен, полностью ли я понимаю разницу.Особенно с V. Что такое V (s)?Как может государство иметь внутреннюю ценность?

Если мы рассмотрим это в контексте торговли акциями, скажем, как бы мы определили эти три переменные?

Maxim · Answer 1 · 10 декабря 2018

Независимо от того, о какой сети можно говорить, награда является неотъемлемой частью среды.Это сигнал (фактически, only ), который агент получает в течение своей жизни после совершения действий.Например: агент, играющий в шахматы, получает только одну награду в конце игры, либо +1, либо -1, в остальное время награда равна нулю.

Здесь вы можете увидеть проблему в этомпример: вознаграждение очень скудное и дается только один раз, но состояния в игре, очевидно, очень разные.Если агент находится в состоянии, когда у него есть королева, а противник только что ее потерял, шансы на победу очень велики (немного упрощается, но вы понимаете).Это хорошее состояние , и агент должен стремиться туда добраться.С другой стороны, если агент потерял все фигуры, это плохое состояние , он, скорее всего, проиграет.
Мы хотели бы дать количественную оценку того, чтоНа самом деле это хорошие и плохие состояния, и вот функция value V(s).Для любого состояния возвращается число, большое или маленькое.Обычно формальным определением является ожидание дисконтированных будущих вознаграждений с учетом конкретной политики для действий (обсуждение политики см. в этом вопросе ).Это имеет смысл: хорошее состояние - это такое состояние, в котором будущая награда +1 весьма вероятна;плохое состояние совершенно противоположное - когда будущее -1 очень вероятно.

Важное примечание: функция стоимости зависит от наград , а не только для одного состояния, для многихиз них.Помните, что в нашем примере награда почти для всех штатов составляет 0.Функция значения учитывает все будущие состояния вместе с их вероятностями.

Еще одно примечание: строго говоря, само состояние не имеет значения.Но мы присвоили ему один, в соответствии с нашей целью в окружающей среде, которая заключается в максимизации общего вознаграждения.Может быть несколько политик, и каждая из них будет вызывать различные функции значения.Но есть (обычно) одна оптимальная политика и соответствующая функция оптимального значения .Это то, что мы хотели бы найти!
Наконец, Q-функция Q(s, a) или функция-значение - это оценка конкретного действияв определенном состоянии для данной политики.Когда мы говорим об оптимальной политике, функция действие-значение тесно связана с функцией значения через уравнения оптимальности Беллмана .Это имеет смысл: значение действия полностью определяется значением возможных состояний после его выполнения (в игре в шахматы переход состояний является детерминированным, но в целом он также вероятностный, поэтому мы говорим обо всехвозможные состояния здесь).

Опять же, функция «действие-значение» является производной от будущих наград.Это не просто текущая награда.Некоторые действия могут быть намного лучше или намного хуже, чем другие, даже если немедленная награда такая же.

Говоря о примере торговли акциями, главная трудность заключается в определении политикидля агента.Давайте представим простейший случай.В нашей среде состояние - это просто кортеж (current price, position).В этом случае:

Награда отлична от нуля только тогда, когда агент действительно занимает позицию;когда его нет на рынке, награды нет, т.е. она равна нулю.Эта часть более или менее проста.
Но функции value и action-value очень нетривиальны (помните, что это объясняет только будущие награды, а не прошлое).Скажем, цена AAPL составляет 100 долларов, это хорошо или плохо, учитывая будущие награды?Стоит ли покупать или продавать?Ответ зависит от политики ...
Например, агент может каким-то образом узнать, что каждый раз, когда цена внезапно падает до 40 долларов, он скоро восстанавливается (звучит слишком глупо, это просто иллюстрация).Теперь, если агент действует в соответствии с этой политикой, цена около 40 долларов - это хорошее состояние, а его стоимость высока.Аналогично, значение действия Q около $ 40 является высоким для «покупки» и низким для «продажи».Выберите другую политику, и вы получите другое значение и функции значения действия.Исследователи пытаются проанализировать историю акций и выработать разумных политик , но никто не знает оптимальных политик .На самом деле, никто даже не знает вероятности состояния , только их оценки.Это то, что делает задачу действительно трудной.

В чем конкретно разница между Q, V (функция стоимости) и вознаграждением в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

В чем конкретно разница между Q, V (функция стоимости) и вознаграждением в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы