Question

В настоящее время я пишу реализацию поиска по дереву Монте-Карло для ИИ стратегической игры, и у меня есть вопрос о развертывании (фаза моделирования). достигается конечное состояние, но это непрактично, когда у вас есть большое пространство поиска и конечное время. В моем случае я ограничиваю количество шагов моделирования до определенного значения (или fini sh раньше, если завершается).

На каждом этапе симуляции я оцениваю состояние, но поскольку симуляция состоит из последовательности случайных действий, оцененное значение может увеличиваться или уменьшаться во время симуляции. Возникает вопрос: Для моделирования нетерминального состояния, должен ли я возвращать последнюю оценку состояния или лучшую оценку состояния, которая наблюдалась во время этого прогона?

Nathan S. · Answer 1 · 28 мая 2020

Обычно вы используете значение в конце моделирования. Но MCTS регулярно адаптируется для многих различных доменов, поэтому вы можете адаптировать его таким образом, чтобы обеспечить максимальную производительность.

Эта идея, насколько мне известно, была впервые предложена для Amazon . Там они использовали только случайное блуждание «около 6 ходов» перед применением функции оценки.

Поиск по дереву Монте-Карло: получение выгоды от внедрения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск по дереву Монте-Карло: получение выгоды от внедрения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы