Когда использовать Монте-Карло поверх обучения TD, и наоборот - PullRequest
1 голос
/ 28 апреля 2019

При изучении обучения в области подкрепления, и именно в том, что касается RL без модели, мы обычно используем два метода:

  • TD обучение
  • Монте-Карло

Когда каждый из них используется поверх другого?Другими словами, как нам определить, какой метод лучше всего подходит для нашей проблемы?

1 Ответ

2 голосов
/ 02 мая 2019

Разделы 6.1 и 6.2 Саттона и Барто дают очень хорошее интуитивное понимание разницы между обучением Монте-Карло и ТД.

Сказав, что, конечно, существует очевидная несовместимостьМетоды МК с неэпизодическими задачами.В этом случае вам всегда понадобится какая-то начальная загрузка.

...