Q-learning - это Алгоритм временного различия . Для каждого возможного состояния (доска) он изучает значение доступных действий (ходов). Однако он не подходит для использования с Minimax , поскольку алгоритм Minimax нуждается в функции оценки, которая возвращает значение позиции, а не значение действия в этой позиции.
Тем не менее, методы временной разности могут быть использованы для изучения такой функции оценки. В частности, Джеральд Тесауро использовал алгоритм TD (λ) («TD lambda»), чтобы создать TD-Gammon , конкурентоспособную для человека программу игры в нарды. Он написал статью, описывающую подход, который вы можете найти здесь .
TD (λ) был позже расширен до TDLeaf (λ), специально для лучшей обработки минимаксных поисков. TDLeaf (λ) использовался, например, в шахматной программе KnightCap. Вы можете прочитать о TDLeaf в этой статье .