Этот вопрос является попыткой переосмыслить этот вопрос , чтобы сделать его более понятным.
На этом слайде показано уравнение для Q (состояние, действие) в терминахнабор весов и функций.
В этих обсуждениях ( Правило базового обновления и Приближение функции линейных значений ) показан набор весов для каждого действия.
Причина, по которой они различаются, заключается в том, что на первом слайде предполагается, что вы можете предвидеть результат выполнения действия, а затем находить функции для результирующих состояний.(Обратите внимание, что функции объектов являются функциями как текущего состояния, так и ожидаемого действия.) В этом случае один и тот же набор весов может быть применен ко всем результирующим объектам.
Но в некоторых случаях невозможно предвидеть эффект от действия.Тогда что делать?Даже если у вас есть идеальные веса, вы не можете применить их к результатам применения действий, если вы не можете предвидеть эти результаты.
Я предполагаю, что вторая пара слайдов имеет дело с этой проблемой.Вместо того, чтобы выполнять действие и затем применять весовые коэффициенты к элементам результирующих состояний, вычисляйте элементы текущего состояния и применяйте, возможно, различные весовые коэффициенты для каждого действия.
Это два совершенно разных способа выполнения аппроксимации на основе признаков.,Они оба действительны?Первый имеет смысл в ситуациях, например, таких как Такси, в которых можно эффективно имитировать, что среда будет делать при каждом действии.Но в некоторых случаях, например, на опоре тележки, это невозможно / невозможно.Тогда может показаться, что вам нужен отдельный набор весов для каждого действия.
Это правильный способ думать об этом, или я что-то упустил?
Спасибо.