Я недавно изучал изучение подкрепления.Для этого я читал знаменитую книгу Саттона, но есть кое-что, что я еще не до конца понял.
Для обучения по методу Монте-Карло мы можем выбирать между алгоритмом первого посещения и каждым посещением, иможно доказать, что оба асимптотически сходятся к правильному решению.Но я думаю, что есть разница между обоими (я понимаю разницу по определению, но я не понимаю, каковы недостатки каждого метода).Должен ли я в некоторых случаях использовать первое посещение, а иногда и последнее посещение?
Большое спасибо, Djaz