Этот вопрос относится к Q-learning.
Пожалуйста, примите во внимание следующее:
- Состояние цикла (поглощающее) J - с вознаграждением 100 для перехода от J к J (J - конечное состояние - вознаграждение от перехода от I к J также равно 100)
- значение гаммы 1
- альфа-значение 0,5
говорят, что переход J в J уже получил значение Q 100. Новое значение Q задается как:
100 + 0,5 (100 + 1 (100) -100) где Q (макс. Следующие возможные состояния) равно 100, как если бы вы были в состоянии J, чтобы получить максимально возможное следующее значение Q, вы должны выполнить цикл (таким образом, макс. значение это то, что оно в настоящее время составляет -100). Это дает вам новое значение Q, равное 150. Принимая это к логическому заключению, каждый раз, когда вы выполняете цикл на J, значение Q возрастает на 50, и это конкретное значение Q никогда не будет сходиться, и это мне кажется неправильным (это неправильно? ). (другие ценностные прикрытия). Я уже много раз проводил этот эксперимент и до сих пор не уверен в этом. Пожалуйста, уточните вышеуказанный пункт, если можете. Нас очень плохо учили изучению Q в моем университете, и через полторы недели мне нужно сдать курсовую работу.
Спасибо!