Я новичок в tf, поэтому, пожалуйста, будьте снисходительны ...
У меня есть набор данных, который содержит действия, дескрипторы контекста и оценку (вознаграждение).Я пытаюсь обучить модель, которая предсказывает наилучшее действие (определяется по счету) для данного контекста.
Данные выглядят следующим образом:
action (label);контекстная функция 1;контекстная функция 2;контекстная функция 3;оценка (вознаграждение)
Я знаю, что это похоже на проблему обучения подкреплению, но я читаю, что обучение подкреплению не использует какую-либо базу данных.
Я пробовал с пользовательской функцией потерь, включая вознаграждение и минимизировал оптимизатор, но не 'Кажется, работа ...
Спасибо за ответ.
Джерард