Question

Я хочу разработать систему обучения подкреплению. У меня есть действия и одно государство, поэтому моя проблема напоминает проблемы многорукого бандита. У меня есть довольно хорошая функция, которая может предсказать вознаграждение, давайте назовем это (f). (f) - контролируемая модель машинного обучения. Но чтобы получить реальное вознаграждение, мне нужно подождать 24 часа, и вознаграждение за те же действия со временем может измениться, поэтому проблема нестационарна. Как я могу использовать свою функцию вознаграждения (f) в качестве симулятора, чтобы играть во многие игры вместо ожидания целого дня, и отделить этот симулятор от функции ожидаемого значения / вознаграждения, чтобы я мог притвориться, что симулятор - это настоящее вознаграждение, но это не дает те же результаты, что и функция значения? ..

В качестве альтернативы, если я не могу выполнить это моделирование, как я могу оценить, сколько времени понадобится моей системе обучения подкреплению, если я подожду 24 часа между играми?

Как я могу имитировать свою среду обучения подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как я могу имитировать свою среду обучения подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы