Question

Я хочу придумать модель глубокого обучения Q, чтобы предложить наиболее подходящий временной интервал (любой временной интервал среди 24 часов) для выполнения определенной деятельности.

Я новичок в области глубокого обучения, но у меня есть основная идея по машинному обучению (под наблюдением и без присмотра). В соответствии с моим пониманием, я чувствую, что мое пространство действий является непрерывным, так как мое мобильное приложение будет предсказывать любой временной интервал для выполнения некоторых действий, и на основе отзывов пользователей будет определено мое вознаграждение. Агент - мое мобильное приложение действия - предложить временные интервалы для выполнения действий Награды определяются на основании результатов дипломной работы. - если пользователь выполняет действие в заданном временном интервале, это считается положительным вознаграждением. - если пользователь откладывает напоминание, это будет отрицательная награда. Есть 7 штатов (7 дней недели) эпизод - завершить одно расписание занятий за одну неделю

Я хочу знать, является ли это хорошим подходом к RL, и если да, не могли бы вы предоставить мне некоторые ресурсы для подражания. Заранее спасибо.

как придумать подход глубокого обучения Q для предложения подходящего временного интервала для выполнения конкретной деятельности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

как придумать подход глубокого обучения Q для предложения подходящего временного интервала для выполнения конкретной деятельности

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы