Проблема в реализации одноступенчатого псевдокода Саттона Actor-Criti c в python - PullRequest
1 голос
/ 22 января 2020

Я хочу реализовать псевдокод, показанный ниже в Python3 без PyTorch.

Suttons Pseudocode for Actor-Critic method


Я прочитал некоторые главы из Обучение усилению: Введение (Черновик) в последние несколько дней, поэтому я могу сказать, что:

  1. PI = exp(h(s,a,Theta)) / sum[b](exp(h(s,b,Theta))
  2. h = Transpose(Theta) X(s,a)
  3. v_hat = Transpose(W) X(s)

Но есть кое-что, чего я не читал:

Что такое X(s)?

Я не нашел этого в книге еще. Может кто-нибудь объяснить это мне или дать мне страницу книги, в которой это объясняется?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...