Смещение / дисперсия алгоритмов усиления для немарковских состояний - PullRequest
1 голос
/ 06 июня 2019

Здравствуйте, сообщество StackOverflow!

У меня возник вопрос по поводу алгоритмов прогнозирования и управления без моделирования в обучении с подкреплением.В лекциях Дэвида Сильвера анализ компромисса смещения / дисперсии сделан для MC и TD (т. Е. MC не имеет смещения и высокой дисперсии, тогда как TD (0) имеет некоторую смещение и низкую дисперсию), но при этом сравнивает состояния в окружающей среде.есть свойство Маркова.

Можете ли вы прокомментировать, что происходит с смещением и дисперсией:
1. , когда мы используем MC в среде с состояниями, у которых нет свойства Маркова
2. тоже самое для алгоритма TD
по сравнению с применяемыми для состояний, имеющих свойство Маркова?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...