Понимание значений аргументов для примера леса mdptoolbox - PullRequest
0 голосов
/ 08 июня 2019

Я пытаюсь понять, как использовать mdptoolbox и у меня есть несколько вопросов.

Что означает 20 в следующем утверждении?

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

Я понимаю, что 10 здесь обозначает количество возможных состояний. Что означает 20 здесь? Представляет ли это общее количество действий на штат? Я хочу ограничить MDP ровно 2 действиями в каждом штате. Как я мог это сделать?

Форма P, возвращенная выше, равна (2, 10, 10). Что 2 представляет здесь? Независимо от того, какие значения я использую для общих состояний и действий, это всегда 2.

1 Ответ

1 голос
/ 08 июня 2019

Код, который вы используете, верен, но вы используете пример из набора инструментов.

Пожалуйста, внимательно изучите документацию .

В следующем коде:

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

Второй аргумент не является аргументом действия для MDP. Его документация объясняет второй аргумент следующим образом:

Награда, когда лес находится в самом старом состоянии и выполняется действие «Ожидание».По умолчанию: 4.

В вашем случае значение вознаграждения передается как 20, когда лес находится в самом старом состоянии и выполняется действие Wait.

В этом примере лес управляется двумя действиями: ‘Wait’ и ‘Cut’.Пожалуйста, обратитесь к этой документации для более подробной информации.Поскольку возможно 2 действия, матрица вероятности перехода P, возвращаемая этой функцией, также имеет первый размер измерения как 2.Вам не нужно вручную ограничивать размер пространства действия до 2.

Чтобы понять, как использовать этот набор инструментов, вам также нужно пройти по этой ссылке .

...