Код, который вы используете, верен, но вы используете пример из набора инструментов.
Пожалуйста, внимательно изучите документацию .
В следующем коде:
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
Второй аргумент не является аргументом действия для MDP. Его документация объясняет второй аргумент следующим образом:
Награда, когда лес находится в самом старом состоянии и выполняется действие «Ожидание».По умолчанию: 4.
В вашем случае значение вознаграждения передается как 20
, когда лес находится в самом старом состоянии и выполняется действие Wait
.
В этом примере лес управляется двумя действиями: ‘Wait’
и ‘Cut’
.Пожалуйста, обратитесь к этой документации для более подробной информации.Поскольку возможно 2 действия, матрица вероятности перехода P
, возвращаемая этой функцией, также имеет первый размер измерения как 2
.Вам не нужно вручную ограничивать размер пространства действия до 2
.
Чтобы понять, как использовать этот набор инструментов, вам также нужно пройти по этой ссылке .