обучение с подкреплением: работа с не поддающейся количественной оценке системой обратной связи - PullRequest
0 голосов
/ 12 мая 2018

Я пытаюсь написать алгоритм обучения с подкреплением, который для простоты будет предсказывать число, о котором я думаю, принимая n входных данных [не должно быть важно, что они есть].Поэтому, когда алгоритм предсказывает число, я просто отвечу ему: «очень близко», «близко», «точно», «далеко», «слишком далеко»

Теперь все учебники, которые я видел, имеют количественный результати они обычно делают среднеквадратическую ошибку, чтобы увидеть, сколько ошибки было в прогнозе.Но здесь обратная связь не поддается количественной оценке

Как мне подойти к этой проблеме?К вашему сведению, я очень новичок в ML Не обязательно, чтобы это было подкреплением.Я также пытался использовать нейросетевой подход, но даже у него были похожие проблемы

1 Ответ

0 голосов
/ 14 мая 2018

Если бы вы подошли к этому с помощью простой линейной регрессии, вы бы обучили модель на основе предыдущих примеров.Входные данные n и фактический ответ для каждого из этих входов будут использоваться для создания линейного уравнения, которое наиболее точно удовлетворяет всем примерным данным.При запросе прогноза входные данные n подаются через это уравнение, и этот результат будет прогнозом.

При обучении с подкреплением агент обучается на основе "вознаграждений", полученных в окружающей среде от принятия определенныхдействия в наборе состояний.Эти награды должны быть количественно.Чтобы использовать методы RL, вам нужно определить количество ваших ответов.Я предположил бы, что «точный» будет иметь большое положительное вознаграждение, связанный с «близким», чтобы иметь маленькое положительное вознаграждение, и «далеко», чтобы иметь отрицательное вознаграждение, связанное с ним.Вы должны количественно оценить свой отзыв, в противном случае агент RL не сможет «выучить».

Вы все еще можете использовать RMSE в качестве показателя точности своей политики, измеряя разницу между прогнозируемым числом и тем, чторезультат должен быть.Вы должны иметь доступ к фактическому результату, иначе как узнать, является ли прогноз точным, близким или далеким?

...