Формат ввода cb_explore: Использование обеспечения значения вероятности в обучении - PullRequest
0 голосов
/ 15 октября 2019

Формат ввода cb_explore требует указания action: cost: action_probability для каждого примера. Однако алгоритмы cb внутри уже пытаются узнать оптимальную политику, то есть вероятность для каждого действия на основе данных. Тогда зачем нужна вероятность каждого действия на входе? Это только для инициализации?

1 Ответ

0 голосов
/ 06 ноября 2019

Если я правильно понимаю, вы спрашиваете, почему метка, связанная с cb_explore, представляет собой набор пар действие / вероятность.

Вероятность действия метки используется как вес важности для обучения. Это приводит к усилению обновлений для действий, которые воспроизводятся реже, что снижает вероятность их утопления в действиях, выполняемых чаще.

Кроме того, этот тип метки очень полезен во время прогнозирования, поскольку он генерирует журнал, который можно использовать для проведения объективного контрфактивного анализа. Другими словами, регистрируя вероятность выполнения каждого из действий перед выборкой (см. Cb_sample - это реализует способ выборки одного вектора действия / вероятности, как, например, в сокращении ccb: https://github.com/VowpalWabbit/vowpal_wabbit/blob/master/vowpalwabbit/cb_sample.cc#L37),, затем мы можем использоватьжурнал, чтобы обучить другую политику и сравнить, как она работает с оригиналом.

См. документ «Служба принятия решений по проверке нескольких миров», чтобы описать механизм проведения беспристрастного автономного эксперимента с зарегистрированными данными: https://arxiv.org/pdf/1606.03966v1.pdf

...