Я хочу придумать модель глубокого обучения Q, чтобы предложить наиболее подходящий временной интервал (любой временной интервал среди 24 часов) для выполнения определенной деятельности.
Я новичок в области глубокого обучения, но у меня есть основная идея по машинному обучению (под наблюдением и без присмотра). В соответствии с моим пониманием, я чувствую, что мое пространство действий является непрерывным, так как мое мобильное приложение будет предсказывать любой временной интервал для выполнения некоторых действий, и на основе отзывов пользователей будет определено мое вознаграждение.
Агент - мое мобильное приложение
действия - предложить временные интервалы для выполнения действий
Награды определяются на основании результатов дипломной работы.
- если пользователь выполняет действие в заданном временном интервале, это считается положительным вознаграждением.
- если пользователь откладывает напоминание, это будет отрицательная награда.
Есть 7 штатов (7 дней недели)
эпизод - завершить одно расписание занятий за одну неделю
Я хочу знать, является ли это хорошим подходом к RL, и если да, не могли бы вы предоставить мне некоторые ресурсы для подражания. Заранее спасибо.