Я хочу разработать программу по математике, используя обучение с подкреплением.Предположим, у нас есть 1000 вопросов в руке и 25 вопросов, которые нужно задать в каждой викторине.Вместо того, чтобы задавать вопросы случайным образом, программа должна учиться на том, как пользователь отвечает, и задавать следующий вопрос.
Программа викторины должна быть подкрепляющим обучающим агентом.Как разработать решение и какие методы обучения подкреплению использовать?Пример: BoT: что 5+ 1: Пользователь: 3 (Неверный ответ) Бот: Задал простой вопрос или, если правильный ответ задал сложный вопрос.