Эта функция вознаграждения не будет существовать, если у вас есть фактические данные о том, какая рука была выбрана, и метка успеха.
Насколько я понимаю, вы делаете это, потому что у вас нет фактических данных ответа на данные.Другими словами, вы показываете руки, вы не знаете, привели ли они к успеху (1) или нет (0).
Таким образом, вы просто предполагаете, что если вероятность равна 0,7, 70% вероятности вы получите 1. Как переменная Бернулли с вероятностью успеха 0,7.Этот random.random () предназначен для вас.Чем больше вероятность (вероятность успеха руки), тем больше вероятность того, что вы получите награду.