Запутался в наградах в лекции Дэвида Сильвера 2 - PullRequest
1 голос
/ 30 мая 2019

Просматривая курс обучения подкреплению Дэвида Сильвера на YouTube (и слайд: Лекция 2 MDP ), я обнаружил, что «Вознаграждение» и «Функция ценности» действительно сбивают с толку.

  1. Я пытался понять «данные награды», отмеченные на слайде (P11), но я не могу понять, почему это так. Мол, «Класс 1: R = -2», но «Паб: R = +1»

    почему отрицательная награда для класса и положительная награда для паба? почему другое значение ?

  2. Как рассчитать вознаграждение с помощью Дисконтного фактора ? (P17 и P18)

Я думаю, что отсутствие интуиции в обучении с подкреплением - главная причина, по которой я столкнулся с такой проблемой ...

Итак, я был бы очень признателен, если бы кто-нибудь дал мне небольшой намек.

Ответы [ 2 ]

1 голос
/ 03 июня 2019

Q1) Прежде всего, вы не должны забывать, что окружающая среда дает награды.Действия, предпринятые агентом, не влияют на вознаграждения окружающей среды, но, конечно, они влияют на вознаграждение, полученное по следующей траектории.

В примере эти +1 и -2 являются просто забавными примерами:) «Будучи студентом», вам становится скучно во время урока, поэтому вы получаете вознаграждение -2, в то время как вы веселитесь в пабе, поэтому вознаграждение составляет +1.Не путайтесь с причинами этих чисел, они даны для среды.

Q2) Давайте сделаем вычисление для состояния со значением 4.1 в «Пример: функция состояния-значения»для студента MRP (2) ":

v (s) = (-2) + 0,9 * [(0,4 * 1,9) + (0,6 * 10)] = (-2) + 6,084 = ~ 4,1

Здесь Дэвид использует Уравнение Беллмана для ППМ .Вы можете найти его на том же слайде.

1 голос
/ 31 мая 2019

Вы обычно устанавливаете вознаграждение и скидку таким образом, чтобы с помощью RL вы заставляли агента решать задачу.В примере со студентом цель - сдать экзамен.Студент может проводить время, посещая занятия, спя, на Facebook или в пабе.Посещение класса - это что-то «скучное», поэтому студент не видит непосредственной выгоды от этого.Отсюда и отрицательная награда.Наоборот, ходить в паб - это весело и дает положительное вознаграждение.Однако, только посещая все 3 класса, студент может сдать экзамен и получить большую итоговую награду.Теперь возникает вопрос: насколько студент оценивает непосредственные и будущие награды?Коэффициент дисконтирования говорит вам, что: небольшая скидка придает большее значение немедленным вознаграждениям, потому что будущие вознаграждения просто «исчезают» в долгосрочной перспективе.Если мы используем небольшую скидку, студент может предпочесть всегда идти в паб или спать.Со скидкой, близкой к 0, уже после одного шага все вознаграждения также приближаются к 0, поэтому в каждом штате студент будет стремиться максимизировать немедленное вознаграждение, потому что после этого «ничего больше не имеет значения».

Вкл.наоборот, высокие скидки (макс. 1) больше ценят долгосрочные вознаграждения: в этом случае оптимальный ученик будет посещать все занятия и сдавать экзамен.

Выбор скидки может быть сложным, особенно если нет состояния терминала (в этом случае «сон» является терминалом), поскольку при скидке 1 агент может игнорировать количество шагов, используемых для достижения наибольшеговознаграждение.Например, если классы дали бы вознаграждение -1 вместо -2, для агента было бы то же самое, чтобы тратить время, чередуя между "классом" и "пабом" навсегда и в некоторый момент, чтобы сдать экзамен, потому что со скидкой 1награды никогда не исчезают, поэтому даже через 10 лет студенты все равно получат +10 за сдачу экзамена.

Подумайте также о виртуальном агенте, который должен достичь целевой позиции.Со скидкой 1 агент не научится достигать ее за наименьшее количество шагов: до тех пор, пока она достигает ее, для него то же самое.

Кроме того, существует также численная проблема со скидкой 1Так как цель состоит в том, чтобы максимизировать совокупную сумму дисконтированного вознаграждения, если вознаграждения не дисконтируются (и горизонт бесконечен), сумма не будет сходиться.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...