Question

Этот код:

R = ql.matrix([ [0,0,0,0,1,0],
        [0,0,0,1,0,1],
        [0,0,100,1,0,0],
        [0,1,1,0,1,0],
        [1,0,0,1,0,0],
        [0,1,0,0,0,0] ])

от:

https://github.com/PacktPublishing/Artificial-Intelligence-By-Example/blob/47bed1a88db2c9577c492f950069f58353375cfe/Chapter01/MDP.py

R определяется как «Матрица вознаграждения для каждого состояния» " Какие состояния и награды в этой матрице?

# Reward for state 0
print('R[0,]:' , R[0,])

# Reward for state 0
print('R[1,]:' , R[1,])

печатает:

R[0,]: [[0 0 0 0 1 0]]
R[1,]: [[0 0 0 1 0 1]]

Is [0 0 0 0 1 0] state0 & [0 0 0 1 0 1] state1?

Pablo EM · Answer 1 · 10 февраля 2020

Согласно книге, в которой используется этот пример, R представляет собой вознаграждение за переходы из одного текущего состояния s в другое следующее состояние s'.

В частности, R связано с следующий график:

Каждая строка в матрице R представляет букву от A до F , и каждый столбец представляет букву от A до F . Значения 1 представляют узлы графиков. То есть R[0,]: [[0 0 0 0 1 0]] означает, что вы можете go из состояния s=A в следующее состояние s'=E и получить вознаграждение 1. Аналогично, R[1,]: [[0 0 0 1 0 1]] означает, что вы получите вознаграждение 1, если вы go из * От 1028 * до F или D. Целью является достижение и сохранение в C, который получает наибольшую награду.

Каковы состояния и награды в матрице наград?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каковы состояния и награды в матрице наград?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы