Рассматривается ли основанная на правилах система, которая изучает обучение с подкреплением? - PullRequest
1 голос
/ 12 апреля 2019

Я читаю книгу «ИИ для разработчиков игр» Гленна Симанна и Дэвида М. Бурга, где они используют ИИ для видеоигр как пример системы, основанной на правилах, которая обучается.

По сути,игрок имеет 3 возможных хода и наносит удары в комбинации из трех ударов.ИИ стремится предсказать третий удар игрока.Правилами системы являются все возможные комбинации из 3-х ходов.С каждым правилом связан «вес».Каждый раз, когда система неправильно угадывает, вес правила уменьшается.Когда система должна выбрать правило, она выбирает правило с наибольшим весом.

Чем это отличается от системы, основанной на обучении подкреплению?Спасибо!

1 Ответ

2 голосов
/ 13 апреля 2019

Да, это обучение с подкреплением в установленном использовании термина. Вы можете столкнуться с некоторым противодействием со стороны тех, кто проводит активные исследования сегодня, поскольку «горячие» части имеют дело с приложениями глубокого обучения.

Ваше приложение имеет четко определенное игровое дерево для поиска; Вы можете направить подкрепление с математической структурой, которая соответствует непосредственно игре. Это приложение машинного обучения, основанное на хорошо отлаженных алгоритмах обучения.

Текущее «горячее» исследование работает с более сложными игровыми ситуациями, в которых соответствие между действием и его результатом не является четко определенным. Эти видеоигры используют сети DL, а не деревья игр, чтобы в конечном итоге найти правила действий, которые приведут к более высокому успеху. Они полностью находятся в DL-части ИИ, поэтому вы видите разделение в вещах, которые вы читаете.

...