У меня есть случай использования, когда состояние среды может меняться из-за случайных событий между временными шагами, которые агент выполняет действия.Например, в момент t1 агент выполняет действие a1 и получает вознаграждение и новое состояние s1.Прежде чем агент предпримет следующее действие в момент времени t2, в среде произошли некоторые случайные события, которые изменили состояние.Теперь, когда агент выполняет действие в момент времени t2, он теперь действует на «устаревшую информацию», поскольку состояние среды изменилось.Кроме того, новое состояние s2 будет представлять изменения не только из-за действия агента, но также из-за предыдущих случайных событий, которые произошли.В худшем случае действие могло стать недействительным для нового состояния, которое было введено из-за этих случайных событий, произошедших в среде.
Как мы с этим справимся?Означает ли это, что этот вариант использования не подходит для решения с RF?Если мы просто игнорируем эти изменяющиеся состояния из-за случайных событий в окружающей среде, как это повлияет на различные алгоритмы обучения?Я предполагаю, что это не редкая или уникальная проблема в реальных случаях использования ...