Я начал играть с обучением подкреплению (используя книгу Саттона). Я не могу до конца понять, что это парадокс между необходимостью сокращать пространство состояний Маркова и в то же время не делать предположений о том, что важно, а что нет.
Например.В примере с шашками Саттон говорит, что не следует назначать награды за определенные действия в игре, такие как победа противника.Он утверждает, что это может оптимизировать ИИ для взятия фигур, а не для победы в игре.Таким образом, награды должны даваться только за результат, которого вы хотите достичь (например, выиграть игру).
Вопрос 1
Предположим, что (Техасский Холдем) ПокерИИ с марковским состоянием только руки игроков и карт на столе.Это имеет около 52 * 51 * 50 * 49 * 48 * 47 * 46/1 * 2 * 3 * 4 * 5 * 6 * 7 состояний.Теперь предположим, что мы хотим, чтобы ИИ принимал во внимание денежный пул игроков + их ставки.Это сделает марковский подход к пространству состояний «бесконечным числом комбинаций», если предположить, что 8 игроков имеют по 1-200 000 долларов.
Вопрос 2
Одно сокращение состояния-стратегия может заключаться в разделении денег игроков на бедных , средних или богатых .Это серьезно уменьшает наше пространство состояний, однако, откуда мне знать, что a) 3 группы достаточно?б) Каковы пределы дискриминации для каждой группы?
ура,