Укрепление обучения предназначено для задач, в которых агент ИИ не имеет информации о мире, в котором он работает. Поэтому алгоритмы обучения Укреплению не только дают вам стратегию / оптимальные действия в каждом состоянии, но и ориентируются в совершенно чужой среде (без знать о том, какое действие приведет к тому или иному состоянию результата), и узнать параметры этой новой среды. Это алгоритм обучения на основе модели
Теперь Q Learning и Temporal разностное обучение являются алгоритмами обучения без подкрепления модели. Это означает, что агент ИИ делает то же самое, что и в алгоритме на основе моделей, но ему не нужно изучать модель (такие как вероятности переходов) мира, в котором он работает. На протяжении многих итераций он создает отображение каждого состояния к оптимальному действию, которое будет выполнено в этом состоянии.
Теперь, перейдя к вашему вопросу, вам не нужно угадывать награды в разных штатах. Первоначально, когда агент является новичком в среде, он просто выбирает случайное действие для выполнения из состояния, в котором он находится, и передает его симулятору. Симулятор, основанный на функциях перехода, возвращает состояние результата этой пары действий состояния, а также возвращает вознаграждение за нахождение в этом состоянии.
Симулятор аналогичен Природе в реальном мире. Например, вы находите что-то незнакомое в мире, вы выполняете какое-то действие, например касаетесь его, если вещь оказывается горячим объектом. Природа дает вознаграждение в виде боли, так что в следующий раз вы узнаете, что происходит, когда вы попробуйте это действие. При программировании этого важно отметить, что работа симулятора не видна агенту ИИ, который пытается изучить окружающую среду.
Теперь, в зависимости от этой награды, которую чувствует агент, он резервирует свое Q-значение (в случае Q-Learning) или служебное значение (в случае TD-Learning). На многих итерациях эти Q-значения сходятся, и вы можете выбрать оптимальное действие для каждого состояния в зависимости от Q-значения пар состояние-действие.