Question

Я новичок в tf, поэтому, пожалуйста, будьте снисходительны ...

У меня есть набор данных, который содержит действия, дескрипторы контекста и оценку (вознаграждение).Я пытаюсь обучить модель, которая предсказывает наилучшее действие (определяется по счету) для данного контекста.

Данные выглядят следующим образом:

action (label);контекстная функция 1;контекстная функция 2;контекстная функция 3;оценка (вознаграждение)

Я знаю, что это похоже на проблему обучения подкреплению, но я читаю, что обучение подкреплению не использует какую-либо базу данных.

Я пробовал с пользовательской функцией потерь, включая вознаграждение и минимизировал оптимизатор, но не 'Кажется, работа ...

Спасибо за ответ.

Джерард

Классификация действий для оптимальной оценки (вознаграждения) в данном контексте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Классификация действий для оптимальной оценки (вознаграждения) в данном контексте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы