Каковы состояния и награды в матрице наград? - PullRequest
1 голос
/ 09 февраля 2020

Этот код:

R = ql.matrix([ [0,0,0,0,1,0],
        [0,0,0,1,0,1],
        [0,0,100,1,0,0],
        [0,1,1,0,1,0],
        [1,0,0,1,0,0],
        [0,1,0,0,0,0] ])

от:

https://github.com/PacktPublishing/Artificial-Intelligence-By-Example/blob/47bed1a88db2c9577c492f950069f58353375cfe/Chapter01/MDP.py

R определяется как «Матрица вознаграждения для каждого состояния» " Какие состояния и награды в этой матрице?

# Reward for state 0
print('R[0,]:' , R[0,])

# Reward for state 0
print('R[1,]:' , R[1,])

печатает:

R[0,]: [[0 0 0 0 1 0]]
R[1,]: [[0 0 0 1 0 1]]

Is [0 0 0 0 1 0] state0 & [0 0 0 1 0 1] state1?

1 Ответ

1 голос
/ 10 февраля 2020

Согласно книге, в которой используется этот пример, R представляет собой вознаграждение за переходы из одного текущего состояния s в другое следующее состояние s'.

В частности, R связано с следующий график:

enter image description here

Каждая строка в матрице R представляет букву от A до F , и каждый столбец представляет букву от A до F . Значения 1 представляют узлы графиков. То есть R[0,]: [[0 0 0 0 1 0]] означает, что вы можете go из состояния s=A в следующее состояние s'=E и получить вознаграждение 1. Аналогично, R[1,]: [[0 0 0 1 0 1]] означает, что вы получите вознаграждение 1, если вы go из * От 1028 * до F или D. Целью является достижение и сохранение в C, который получает наибольшую награду.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...