Question

Например, я попытался запустить итерационную лямбда-итерацию на случайном MDP. Я заметил получение разных политик в зависимости от значения лямбды. Могут ли TD (1) и TD (0) давать разные оптимальные политики?

Обновление: увеличение функции начального значения дало мне одинаковый результат в обоих случаях.

Pablo EM · Answer 1 · 13 февраля 2020

Да, в целом, методы RL с гарантиями сходимости могут сходиться к любой оптимальной политике. Таким образом, если MDP имеет несколько оптимальных политик, алгоритмы (включая Итерация политики методы) могут сходиться к любой из оптимальных политик.

Могут ли разные методы итерации политики сходиться к разным оптимальным политикам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Могут ли разные методы итерации политики сходиться к разным оптимальным политикам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы