Лучший алгоритм обучения с подкреплением для игры в четыре - PullRequest
0 голосов
/ 08 января 2012

Какой лучший алгоритм для обучения подкреплению для игры в четыре на ряд. Я хочу построить игру четыре в ряд, которая будет использовать один из алгоритмов RL: Q-Learning, MinMax и т. Д.

Что лучше всего использовать, учитывая, что я использую Java.

Ответы [ 2 ]

0 голосов
/ 30 августа 2017

MinMax обычно не считается алгоритмом обучения с подкреплением, но он, вероятно, является «лучшим» (в зависимости от того, что вы подразумеваете под этим) для Connect 4.

Connect 4 был решен (на платах разных размеров) уже почти три десятилетия. Решатель даже использовался в качестве эталона производительности процессора, известного как Fhourstones , а источник в Java (и C) находится в свободном доступе.

Если вашей целью является изучение Q-обучения (в табличной форме), REINFORCE или некоторых более современных алгоритмов обучения с подкреплением, таких как глубокое Q-обучение с использованием нейронных сетей (DQN) или Action Advantage Actor Critic (A3C) тогда я не сомневаюсь, что все они могут быть успешно применены в Connect 4. Я бы порекомендовал хорошую книгу, такую ​​как «Укрепление» Барто и Саттона. На момент написания черновик 2-го издания находился в свободном доступе в формате PDF.

Однако, если ваша цель - просто найти лучшего игрока, вам будет трудно победить идеальную игру Fhourstones.

0 голосов
/ 08 января 2012

MinMax очень хорош для этой игры. На самом деле вопрос в том, насколько хороша ваша эвристическая функция, чтобы определить, какова «ценность» определенного движения.

...