Q алгоритм обучения-сходимости по циклическому (поглощающему) состоянию - PullRequest
1 голос
/ 25 февраля 2011

Этот вопрос относится к Q-learning.

Пожалуйста, примите во внимание следующее:

  1. Состояние цикла (поглощающее) J - с вознаграждением 100 для перехода от J к J (J - конечное состояние - вознаграждение от перехода от I к J также равно 100)
  2. значение гаммы 1
  3. альфа-значение 0,5

говорят, что переход J в J уже получил значение Q 100. Новое значение Q задается как: 100 + 0,5 (100 + 1 (100) -100) где Q (макс. Следующие возможные состояния) равно 100, как если бы вы были в состоянии J, чтобы получить максимально возможное следующее значение Q, вы должны выполнить цикл (таким образом, макс. значение это то, что оно в настоящее время составляет -100). Это дает вам новое значение Q, равное 150. Принимая это к логическому заключению, каждый раз, когда вы выполняете цикл на J, значение Q возрастает на 50, и это конкретное значение Q никогда не будет сходиться, и это мне кажется неправильным (это неправильно? ). (другие ценностные прикрытия). Я уже много раз проводил этот эксперимент и до сих пор не уверен в этом. Пожалуйста, уточните вышеуказанный пункт, если можете. Нас очень плохо учили изучению Q в моем университете, и через полторы недели мне нужно сдать курсовую работу.

Спасибо!

1 Ответ

1 голос
/ 25 февраля 2011

Согласно Википедии , гамма должна быть строго меньше единицы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...