Vowpal Wabbit: вопрос по обучению контекстного бандита на исторических данных - PullRequest
4 голосов
/ 08 мая 2020

Я знаю из этой страницы, что есть возможность обучить модель VW Contextual Bandit на основе исторических контекстных данных бандитов, собранных с помощью некоторой политики исследования:

VW модуль контекстного бандита, который позволяет вам оптимизировать предсказатель на основе уже собранных контекстных данных бандита. Другими словами, модуль не реализует исследование, он предполагает, что он может использовать только доступные в настоящее время данные, зарегистрированные с использованием политики исследования.

И это делается путем указания --cb и передачи данных в формате действие: стоимость: вероятность | функции :

1:2:0.4 | a c  
3:0.5:0.2 | b d  
4:1.2:0.5 | a b c  
2:1:0.3 | b c  
3:1.5:0.7 | a d 

Мой вопрос: есть ли способ использовать исторические данные, которые были не на основе контекстной политики бандитов, используя --cb (или какой-либо другой метод ) и какой метод оценки политики? Скажем, действия были выбраны в соответствии с некоторыми определенными c, неисследовательными (Edit: biased) heuristi c? В этом случае у меня было бы действие и стоимость , но у меня не было бы вероятности (или она была бы равна 1).

I Я пробовал метод, в котором я использую исследовательский подход и предполагаю, что исторические данные полностью помечены (назначить нулевое вознаграждение для неизвестных вознаграждений), но PMF рушится до нуля по большинству действий.

1 Ответ

2 голосов
/ 08 мая 2020

Мой вопрос: есть ли способ использовать исторические данные, которые не были основаны на контекстной политике бандитов с использованием --cb (или какого-либо другого метода) и некоторого метода оценки политики? Допустим, действия были выбраны в соответствии с некоторыми определенными c, неисследовательными эвристиками c? В этом случае у меня будет действие и стоимость, но у меня не будет вероятности (или она будет равна 1).

Да, установите вероятность равной 1. С вырожденная политика ведения журнала нет никаких теоретических гарантий, но на практике это может быть полезно для инициализации. В дальнейшем вы захотите иметь некоторый недетерминизм в своей политике ведения журнала, иначе вы никогда не улучшите его.

Я пробовал метод, в котором я использую исследовательский подход и предполагаю, что исторические данные полностью помечены (назначьте нулевое вознаграждение для неизвестных вознаграждений), но PMF рушится до нуля в большинстве действий. *. Если вы притворяетесь, что у вас есть полностью помеченные данные, я не уверен, что это лучше, чем просто установить вероятность равной 1.

...