Что означает размер партии на фоне глубокого обучения подкреплению? - PullRequest
2 голосов
/ 02 апреля 2019

Размер партии означает количество образцов, обученных нейронной работе в обучении под наблюдением, однако, что означает значение размера партии на фоне обучения с подкреплением? Это относится и к образцам? Если да, что значат образцы на фоне обучения подкреплению?

1 Ответ

3 голосов
/ 02 апреля 2019

Размер партии действительно означает то же самое в обучении с подкреплением по сравнению с обучением под наблюдением.Интуиция «пакетного обучения» (обычно в мини-пакете) имеет две стороны:

  1. Из-за нехватки памяти аппаратного обеспечения может быть сложно выполнить пакетный градиентный спуск на более чем 1 000 000 точек данных.
  2. Для расчета градиента потерь на подмножестве целых данных, которое представляет целые данные.Если пакет, на котором вы тренируетесь на каждом шаге, не является репрезентативным для всех данных, то на вашем этапе обновления будет смещение.

В контролируемом обучении, таком как нейронные сети, вы будете делать мини-пакетградиентный спуск, чтобы обновить вашу нейронную сеть.При глубоком обучении с подкреплением вы тренируете одни и те же нейронные сети, поэтому они работают одинаково.

При контролируемом обучении ваша партия будет состоять из набора функций и соответствующих меток.В глубоком обучении подкрепления это похоже.Это кортеж (состояние, действие, награда, состояние в момент времени t + 1, иногда выполняется).

Состояние: исходное состояние, описывающее вашу среду.

Действие: действие, выполненное в этом состоянии среды.

Награда: сигнал вознаграждения, полученный после выполнения этого действия в этом состоянии

Состояние t + 1: новое состояние, в которое вы перешли.

Готово: логическое значение, относящееся к концу вашей задачи.Например, если вы тренируете RL для игры в шахматы, готово будет либо выиграть, либо проиграть в шахматы.

Вы должны выбрать партию из этих (s, a, r, s (t + 1), done) наборов.Затем вы вводите его в правило обновления TD, обычно в виде:

enter image description here

Два Q являются значениями действия и рассчитываются путем передачиs, s (t + 1) и a в вашу нейронную сеть.

Затем вы обновите свою нейронную сеть с помощью Q в качестве метки.

...