Я начинаю работать с Vowpal Wabbit с Python, и я немного борюсь с его отсутствием документации.
Ребята, вы знаете, какое моделирование используется в качестве стоимости / оценка награды за каждую руку? Вы знаете, как получить эту текущую оценку?
vw = pyvw.vw("--cb_explore 2 --epsilon 0.2")
input = "2:-20:0.5 | Anna"
vw.learn(initial_input)
input = "1:-10:0.1 | Anna"
vw.learn(initial_input)
vw.predict(" | Anna")
Вывод будет:
[0.10000000149011612, 0.9000000357627869]
Как я также могу получить ожидаемое значение для каждой руки? Что-то вроде
[-10.00, -20.00]