Если бы вы подошли к этому с помощью простой линейной регрессии, вы бы обучили модель на основе предыдущих примеров.Входные данные n
и фактический ответ для каждого из этих входов будут использоваться для создания линейного уравнения, которое наиболее точно удовлетворяет всем примерным данным.При запросе прогноза входные данные n
подаются через это уравнение, и этот результат будет прогнозом.
При обучении с подкреплением агент обучается на основе "вознаграждений", полученных в окружающей среде от принятия определенныхдействия в наборе состояний.Эти награды должны быть количественно.Чтобы использовать методы RL, вам нужно определить количество ваших ответов.Я предположил бы, что «точный» будет иметь большое положительное вознаграждение, связанный с «близким», чтобы иметь маленькое положительное вознаграждение, и «далеко», чтобы иметь отрицательное вознаграждение, связанное с ним.Вы должны количественно оценить свой отзыв, в противном случае агент RL не сможет «выучить».
Вы все еще можете использовать RMSE в качестве показателя точности своей политики, измеряя разницу между прогнозируемым числом и тем, чторезультат должен быть.Вы должны иметь доступ к фактическому результату, иначе как узнать, является ли прогноз точным, близким или далеким?