При изучении обучения в области подкрепления, и именно в том, что касается RL без модели, мы обычно используем два метода:
Когда каждый из них используется поверх другого?Другими словами, как нам определить, какой метод лучше всего подходит для нашей проблемы?