Если я правильно понимаю, вы спрашиваете, почему метка, связанная с cb_explore, представляет собой набор пар действие / вероятность.
Вероятность действия метки используется как вес важности для обучения. Это приводит к усилению обновлений для действий, которые воспроизводятся реже, что снижает вероятность их утопления в действиях, выполняемых чаще.
Кроме того, этот тип метки очень полезен во время прогнозирования, поскольку он генерирует журнал, который можно использовать для проведения объективного контрфактивного анализа. Другими словами, регистрируя вероятность выполнения каждого из действий перед выборкой (см. Cb_sample - это реализует способ выборки одного вектора действия / вероятности, как, например, в сокращении ccb: https://github.com/VowpalWabbit/vowpal_wabbit/blob/master/vowpalwabbit/cb_sample.cc#L37),, затем мы можем использоватьжурнал, чтобы обучить другую политику и сравнить, как она работает с оригиналом.
См. документ «Служба принятия решений по проверке нескольких миров», чтобы описать механизм проведения беспристрастного автономного эксперимента с зарегистрированными данными: https://arxiv.org/pdf/1606.03966v1.pdf