В настоящее время я работаю над собственной версией Alpha Go Zero для Connect 4. Мне трудно разобраться в части архитектуры.Они используют голову политики, чтобы предсказать, какой ход выбрать следующим (скорее всего, выиграет игру), и голову ценности, чтобы оценить, насколько хорош ход с текущей позиции.
Я действительно не понимаюразница.В каком бы состоянии я ни находился, чем больше я использую MCTS, тем лучше я предсказываю, какой следующий ход будет наиболее перспективным.
Я сохраняю результаты из своего MTCS и выигрыша / проигрыша в игре, чтобы иметь возможность быстрее выполнять развертывание / нетделать одно и выбирать лучшие ходы.
Но, в конце концов, разве вероятность того, какой ход выбрать и какой ход самый сильный, одинакова?
Оба помогают мне выбрать, какой ход разыгрывать, так почему жеДля этого мне нужны две отдельные сети (или в Alpha Zero разделить мою сеть на две части в конце)?
Надеюсь, это подходит SO, поскольку я не понимаю алгоритм, стоящий за NN