Методика, называемая TD-Learning, используется в Q-learning и SARSA, чтобы избежать изучения вероятностей перехода.
Короче говоря, когда вы выполняете выборку, то есть взаимодействуете с системой и собираете выборки данных (состояние, действие, вознаграждение, следующее состояние, следующее действие), в SARSA неявно учитываются вероятности перехода при использовании выборок для обновите параметры вашей модели. Например, каждый раз, когда вы выбираете действие в текущем состоянии, а затем вы получаете вознаграждение и новое состояние, система фактически генерирует вознаграждение и новое состояние в соответствии с вероятностью перехода p (s ', r | a). , с).
Вы можете найти простое описание в этой книге,
Искусственный интеллект - современный подход