Да, это обучение с подкреплением в установленном использовании термина. Вы можете столкнуться с некоторым противодействием со стороны тех, кто проводит активные исследования сегодня, поскольку «горячие» части имеют дело с приложениями глубокого обучения.
Ваше приложение имеет четко определенное игровое дерево для поиска; Вы можете направить подкрепление с математической структурой, которая соответствует непосредственно игре. Это приложение машинного обучения, основанное на хорошо отлаженных алгоритмах обучения.
Текущее «горячее» исследование работает с более сложными игровыми ситуациями, в которых соответствие между действием и его результатом не является четко определенным. Эти видеоигры используют сети DL, а не деревья игр, чтобы в конечном итоге найти правила действий, которые приведут к более высокому успеху. Они полностью находятся в DL-части ИИ, поэтому вы видите разделение в вещах, которые вы читаете.