Уравнение Беллмана для функции значения в векторной форме можно записать в виде
V = R + γ PV
Где
V - вектор-столбец, представляющий функцию значения для каждого состояния (1..n)
R - вектор-столбец, представляющий немедленную награду после выхода из определенного состояния
- γ (гамма) - коэффициент дисконтирования
- P - это матрица переходов nxn (все места, где мы можем оказаться)
Поскольку уравнение Беллмана является линейным уравнением, мы можем решить его напрямую. Мы можем решить для V , переставив уравнение следующим образом.
V - γ PV = R
( I - γ P ) V = R
V = R ( I - γ P ) ^ - 1
В основном из-за того, что для решения задачи необходимо выполнить инверсию матрицы для V , что представляет собой сложность O (n ^ 3) с использованием стандартного алгоритма Гаусса-Джордана