Предположим, у меня есть контекстный вектор x длиной 5, который я выбираю случайным образом между 0 и 1. Это я могу кодировать на python как
import numpy as np
x = np.random.uniform(0,1,5)
Сначала я хочу смоделировать функцию вознаграждения, которая зависит отконтекстный вектор.Предположим, вознаграждение составляет либо 0
, либо 1
.Каков наилучший способ моделировать это в симуляции?
Далее, скажем, у меня есть 100 разных пользователей, и для каждого из них разная функция вознаграждения меняется в зависимости от контекста.Поэтому я предполагаю, что если я смоделирую функцию вознаграждения как распределение Бернулли, я могу дать разные средние значения для разных пользователей.Но я хочу смоделировать это с учетом различных контекстов.Я не уверен, как смоделировать это.Как лучше всего смоделировать вознаграждение в разных контекстах для группы из 100 пользователей?