Как получить текущую оценку стоимости / вознаграждения для всех видов оружия, используя Vowpal Wabbit с Python - PullRequest
1 голос
/ 14 марта 2020

Я начинаю работать с Vowpal Wabbit с Python, и я немного борюсь с его отсутствием документации.

Ребята, вы знаете, какое моделирование используется в качестве стоимости / оценка награды за каждую руку? Вы знаете, как получить эту текущую оценку?

 vw = pyvw.vw("--cb_explore 2 --epsilon 0.2")
  input = "2:-20:0.5 |  Anna" 
  vw.learn(initial_input)
  input = "1:-10:0.1 | Anna"
  vw.learn(initial_input)
  vw.predict(" | Anna")

Вывод будет:

[0.10000000149011612, 0.9000000357627869]

Как я также могу получить ожидаемое значение для каждой руки? Что-то вроде

[-10.00, -20.00]
...