Это, на самом деле, выигранная игра с самого начала. И может быть воспроизведено довольно легко вручную. Я предполагаю, что B избегает всех однократных выигрышей для R, и будет отмечать ходы по цвету и выделять место в сетке, где происходит игра.
1. R3,1
... B1,1 2. R3,2 B3,3 3. R4,1 B2,1 4. R2,2 (and R1,2 or R4,2 wins next)
... B2,1 2. R3,2 B3,3 3. R2,2 B2,3 4. R1,1 (and R1,2 or R1,3 wins next)
... B3,2 2. R2,1 (and R1,1 or R4,1 wins next)
... B4,1 2. R2,1 B1,1 3. R3,2 B3,3 4. R2,2 (and R1,2 or R4,2 wins next)
Что касается вашего алгоритма, я собираюсь предложить вам изменить его так, чтобы он предпочел выигрыши, а не убытки, и отдаленные потери, а не проигрыши. Если вы сделаете это, он будет «стараться», чтобы избежать неизбежной потери.