Я знаю из этой страницы, что есть возможность обучить модель VW Contextual Bandit на основе исторических контекстных данных бандитов, собранных с помощью некоторой политики исследования:
VW модуль контекстного бандита, который позволяет вам оптимизировать предсказатель на основе уже собранных контекстных данных бандита. Другими словами, модуль не реализует исследование, он предполагает, что он может использовать только доступные в настоящее время данные, зарегистрированные с использованием политики исследования.
И это делается путем указания --cb
и передачи данных в формате действие: стоимость: вероятность | функции :
1:2:0.4 | a c
3:0.5:0.2 | b d
4:1.2:0.5 | a b c
2:1:0.3 | b c
3:1.5:0.7 | a d
Мой вопрос: есть ли способ использовать исторические данные, которые были не на основе контекстной политики бандитов, используя --cb
(или какой-либо другой метод ) и какой метод оценки политики? Скажем, действия были выбраны в соответствии с некоторыми определенными c, неисследовательными (Edit: biased) heuristi c? В этом случае у меня было бы действие и стоимость , но у меня не было бы вероятности (или она была бы равна 1).
I Я пробовал метод, в котором я использую исследовательский подход и предполагаю, что исторические данные полностью помечены (назначить нулевое вознаграждение для неизвестных вознаграждений), но PMF рушится до нуля по большинству действий.