MinMax обычно не считается алгоритмом обучения с подкреплением, но он, вероятно, является «лучшим» (в зависимости от того, что вы подразумеваете под этим) для Connect 4.
Connect 4 был решен (на платах разных размеров) уже почти три десятилетия. Решатель даже использовался в качестве эталона производительности процессора, известного как Fhourstones , а источник в Java (и C) находится в свободном доступе.
Если вашей целью является изучение Q-обучения (в табличной форме), REINFORCE или некоторых более современных алгоритмов обучения с подкреплением, таких как глубокое Q-обучение с использованием нейронных сетей (DQN) или Action Advantage Actor Critic (A3C) тогда я не сомневаюсь, что все они могут быть успешно применены в Connect 4. Я бы порекомендовал хорошую книгу, такую как «Укрепление» Барто и Саттона. На момент написания черновик 2-го издания находился в свободном доступе в формате PDF.
Однако, если ваша цель - просто найти лучшего игрока, вам будет трудно победить идеальную игру Fhourstones.