Здравствуйте, сообщество StackOverflow!
У меня возник вопрос по поводу алгоритмов прогнозирования и управления без моделирования в обучении с подкреплением.В лекциях Дэвида Сильвера анализ компромисса смещения / дисперсии сделан для MC и TD (т. Е. MC не имеет смещения и высокой дисперсии, тогда как TD (0) имеет некоторую смещение и низкую дисперсию), но при этом сравнивает состояния в окружающей среде.есть свойство Маркова.
Можете ли вы прокомментировать, что происходит с смещением и дисперсией:
1. , когда мы используем MC в среде с состояниями, у которых нет свойства Маркова
2. тоже самое для алгоритма TD
по сравнению с применяемыми для состояний, имеющих свойство Маркова?