В обучении с подкреплением с использованием аппроксимации признаков, есть ли у каждого отдельный набор весов или набор весов для каждого действия? - PullRequest
0 голосов
/ 20 ноября 2018

Этот вопрос является попыткой переосмыслить этот вопрос , чтобы сделать его более понятным.

На этом слайде показано уравнение для Q (состояние, действие) в терминахнабор весов и функций.

В этих обсуждениях ( Правило базового обновления и Приближение функции линейных значений ) показан набор весов для каждого действия.

Причина, по которой они различаются, заключается в том, что на первом слайде предполагается, что вы можете предвидеть результат выполнения действия, а затем находить функции для результирующих состояний.(Обратите внимание, что функции объектов являются функциями как текущего состояния, так и ожидаемого действия.) В этом случае один и тот же набор весов может быть применен ко всем результирующим объектам.

Но в некоторых случаях невозможно предвидеть эффект от действия.Тогда что делать?Даже если у вас есть идеальные веса, вы не можете применить их к результатам применения действий, если вы не можете предвидеть эти результаты.

Я предполагаю, что вторая пара слайдов имеет дело с этой проблемой.Вместо того, чтобы выполнять действие и затем применять весовые коэффициенты к элементам результирующих состояний, вычисляйте элементы текущего состояния и применяйте, возможно, различные весовые коэффициенты для каждого действия.

Это два совершенно разных способа выполнения аппроксимации на основе признаков.,Они оба действительны?Первый имеет смысл в ситуациях, например, таких как Такси, в которых можно эффективно имитировать, что среда будет делать при каждом действии.Но в некоторых случаях, например, на опоре тележки, это невозможно / невозможно.Тогда может показаться, что вам нужен отдельный набор весов для каждого действия.

Это правильный способ думать об этом, или я что-то упустил?

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...