Могут ли разные методы итерации политики сходиться к разным оптимальным политикам? - PullRequest
0 голосов
/ 13 февраля 2020

Например, я попытался запустить итерационную лямбда-итерацию на случайном MDP. Я заметил получение разных политик в зависимости от значения лямбды. Могут ли TD (1) и TD (0) давать разные оптимальные политики?

Обновление: увеличение функции начального значения дало мне одинаковый результат в обоих случаях.

1 Ответ

1 голос
/ 13 февраля 2020

Да, в целом, методы RL с гарантиями сходимости могут сходиться к любой оптимальной политике. Таким образом, если MDP имеет несколько оптимальных политик, алгоритмы (включая Итерация политики методы) могут сходиться к любой из оптимальных политик.

...