В настоящее время я пишу реализацию поиска по дереву Монте-Карло для ИИ стратегической игры, и у меня есть вопрос о развертывании (фаза моделирования). достигается конечное состояние, но это непрактично, когда у вас есть большое пространство поиска и конечное время. В моем случае я ограничиваю количество шагов моделирования до определенного значения (или fini sh раньше, если завершается).
На каждом этапе симуляции я оцениваю состояние, но поскольку симуляция состоит из последовательности случайных действий, оцененное значение может увеличиваться или уменьшаться во время симуляции. Возникает вопрос: Для моделирования нетерминального состояния, должен ли я возвращать последнюю оценку состояния или лучшую оценку состояния, которая наблюдалась во время этого прогона?