Question

При изучении обучения в области подкрепления, и именно в том, что касается RL без модели, мы обычно используем два метода:

TD обучение
Монте-Карло

Когда каждый из них используется поверх другого?Другими словами, как нам определить, какой метод лучше всего подходит для нашей проблемы?

Kris · Answer 1 · 02 мая 2019

Разделы 6.1 и 6.2 Саттона и Барто дают очень хорошее интуитивное понимание разницы между обучением Монте-Карло и ТД.

Сказав, что, конечно, существует очевидная несовместимостьМетоды МК с неэпизодическими задачами.В этом случае вам всегда понадобится какая-то начальная загрузка.

Когда использовать Монте-Карло поверх обучения TD, и наоборот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Когда использовать Монте-Карло поверх обучения TD, и наоборот

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы