Например, я попытался запустить итерационную лямбда-итерацию на случайном MDP. Я заметил получение разных политик в зависимости от значения лямбды. Могут ли TD (1) и TD (0) давать разные оптимальные политики?
Обновление: увеличение функции начального значения дало мне одинаковый результат в обоих случаях.
Да, в целом, методы RL с гарантиями сходимости могут сходиться к любой оптимальной политике. Таким образом, если MDP имеет несколько оптимальных политик, алгоритмы (включая Итерация политики методы) могут сходиться к любой из оптимальных политик.