Я хочу создать стохастику распределения вероятностей c для обучения с подкреплением .
e.i policy[s,a] = P(take action a | in state s), where n_states=500 and n_actions=6
Поскольку мы все еще используем целочисленные представления состояний и действий, мне нужно использовать 2 массив для представления политики.
Как я могу инициализировать мою политику равномерно ? то есть вероятности всех действий должны быть равны.