Давайте рассмотрим несколько фактов.
1) Единственный способ точно определить, какое решение является лучшим, - это проверить каждое возможное решение и оценить результат на основе некоторых критериев.
2) Маловероятно, что у нас будет время для принятия решения по каждому возможному решению, поэтому мы должны ограничить, насколько далеко в будущем мы будем оценивать решение.
3) Мы вряд ли сделаем лучший ход ~ когда-либо ~. Не просто часто, а всегда. Если у вас нет только пары решений, скорее всего, каждый раз, когда вы принимаете решение, было лучшее, к которому вы не попали.
4) Мы можем использовать наши предыдущие решения в наших интересах.
Соберите все это вместе. Скажем, когда у нас есть решение, мы оцениваем то, что произойдет, через 30 тиков в будущем, за 30 тиков мы можем проверить, соответствует ли то, что на самом деле произошло, тому, что мы смоделировали 30 тиков назад. Если это так, мы знаем, что это решение приводит к предсказуемым результатам, и мы должны использовать это решение меньше. Если мы этого не сделали или получилось лучше, чем мы надеялись, мы должны использовать это решение чаще.
В идеале вы должны использовать свою логику в ... симуляции вашего симуляции ... в целях ее оценки. Затем, когда вы перейдете к «реальной» симуляции, у вас будет больше шансов выбрать свои лучшие решения раньше. Конечно, придавайте больший вес результатам ваших реальных результатов моделирования, чем вашим результатам моделирования.