Я хочу реализовать псевдокод, показанный ниже в Python3 без PyTorch.
Я прочитал некоторые главы из Обучение усилению: Введение (Черновик) в последние несколько дней, поэтому я могу сказать, что:
PI = exp(h(s,a,Theta)) / sum[b](exp(h(s,b,Theta))
h = Transpose(Theta) X(s,a)
v_hat = Transpose(W) X(s)
Но есть кое-что, чего я не читал:
Что такое X(s)
?
Я не нашел этого в книге еще. Может кто-нибудь объяснить это мне или дать мне страницу книги, в которой это объясняется?