Question

Этот вопрос относится к Q-learning.

Пожалуйста, примите во внимание следующее:

Состояние цикла (поглощающее) J - с вознаграждением 100 для перехода от J к J (J - конечное состояние - вознаграждение от перехода от I к J также равно 100)
значение гаммы 1
альфа-значение 0,5

говорят, что переход J в J уже получил значение Q 100. Новое значение Q задается как: 100 + 0,5 (100 + 1 (100) -100) где Q (макс. Следующие возможные состояния) равно 100, как если бы вы были в состоянии J, чтобы получить максимально возможное следующее значение Q, вы должны выполнить цикл (таким образом, макс. значение это то, что оно в настоящее время составляет -100). Это дает вам новое значение Q, равное 150. Принимая это к логическому заключению, каждый раз, когда вы выполняете цикл на J, значение Q возрастает на 50, и это конкретное значение Q никогда не будет сходиться, и это мне кажется неправильным (это неправильно? ). (другие ценностные прикрытия). Я уже много раз проводил этот эксперимент и до сих пор не уверен в этом. Пожалуйста, уточните вышеуказанный пункт, если можете. Нас очень плохо учили изучению Q в моем университете, и через полторы недели мне нужно сдать курсовую работу.

Спасибо!

blueberryfields · Answer 1 · 25 февраля 2011

Согласно Википедии , гамма должна быть строго меньше единицы.

Q алгоритм обучения-сходимости по циклическому (поглощающему) состоянию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Q алгоритм обучения-сходимости по циклическому (поглощающему) состоянию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы