Question

Как правильно обновить функцию R (s) во время Q-learning ?Например, скажем, агент посещает состояние s1 пять раз и получает вознаграждение [0,0,1,1,0].Должен ли я вычислить среднее вознаграждение, например, R (s1) = сумма ([0,0,1,1,0]) / 5?Или я должен использовать скользящую среднюю, которая придает больший вес последним значениям вознаграждения, полученным для этого состояния?В большинстве описаний Q-обучения, которые я читал, R (s) рассматриваются как некая константа, и, кажется, никогда не описывается, как вы можете изучать это значение с течением времени.может путать R (s) в Q-Learning с R (s, s ') в процессе принятия решений Маркова .Вопрос остается похожим.При изучении MDP, как лучше всего обновить R (s, s ')?

Juan Leni · Answer 1 · 26 февраля 2016

В стандартном RL без модели (например, Q-learning) вы не изучаете функцию вознаграждения.То, что вы изучаете, является функцией значения или функцией q-значения.Награды получают, взаимодействуя с окружающей средой, и вы оцениваете ожидаемое значение накопленных наград за время (дисконтированное) для пар «состояние-действие».

Если вы используете подходы, основанные на моделях, это другое и вы пытаетесьизучить модель среды, то есть функцию перехода и вознаграждения.Но это не тот случай Q-обучения.

Don Reba · Answer 2 · 18 июля 2011

Q-Learning сохраняет среднее значение action значений для каждого состояния в соответствии с жадной политикой.Он вычисляет эти значения на основе вознаграждений за каждую пару шагов. Состояние значение по жадной политике равно значению лучшего действия.Каноническое описание Q-Learning дано в Укрепление обучения: Введение .

Не существует «лучшего» способа обновления, но SARSA - хороший вариант по умолчанию.SARSA похожа на Q-Learning, за исключением того, что она изучает политику, которой следует, а не жадную политику.

Как узнать функцию вознаграждения в процессе принятия решений Маркова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как узнать функцию вознаграждения в процессе принятия решений Маркова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы