Если вы еще не поняли, ltmemory
обозначает долговременную память, а stmemory
обозначает кратковременную память.Я еще не долго смотрел на код GitHub, но у меня есть базовое понимание того, как AlphaZero и обучение подкреплению объединяются (я сам являюсь энтузиастом шахмат).
По сути, AlphaZero настолько силен, что он использует как долговременную, так и кратковременную память, так же, как мы, люди.Будучи способным принимать решения на основе локальных по времени данных (то есть событий, которые недавно произошли) и более глобальных данных (т. Е. Всей игры и ее результатов), AlphaZero может принимать решения, которые будут не толькопринесет пользу в краткосрочной перспективе, но принесет пользу и в долгосрочной.
Имеет ли это смысл или вообще отвечает на ваш вопрос?Я как-то быстро набрал это и дал довольно точное описание происходящего.Оставьте комментарий к вопросу, если есть одна часть, о которой вы хотите, чтобы я более подробно рассказал.