Задача
Моя цель - применить Reinforcement Learning для прогнозирования следующего состояния объекта под действием известной силы в трехмерной среде (этот подход сводится к контролируемому обучению, автономному обучению).
Подробности моего подхода
Текущее состояние - это вектор, представляющий положение объекта в среде (3 измерения) и скорость объекта (3 измерения). Начальная позиция случайным образом инициализируется в окружающей среде, а также начальная скорость.
Действие - это вектор, представляющий движение из состояния t в состояние t + 1 .
Награда - это просто евклидово расстояние между предсказанным следующим состоянием и реальным следующим состоянием (у меня уже есть целевая позиция).
Что я уже сделал?
Я искал много способов сделать это. Глубокие детерминированные градиенты политики работает для пространства непрерывных действий, но в моем случае у меня также есть пространство непрерывных состояний. Если вы заинтересованы в этом подходе, вот оригинальная статья, написанная на DeepMind:
http://proceedings.mlr.press/v32/silver14.pdf
Подход Actor-Critic должен работать, но обычно (или всегда) применяется к дискретному и низкоразмерному пространству состояний.
Q-Learning и Deep-Q Learning не может работать с пространством состояний высокой размерности, поэтому моя конфигурация не будет работать даже при дискретизации пространства состояний.
Обучение обратному подкреплению (пример имитационного обучения, с Поведенческим клонированием и Прямое обучение по политике ) приближает функцию вознаграждения, когда поиск функции вознаграждения больше сложнее, чем найти функцию политики. Интересный подход, но я не видел никакой реализации, и в моем случае функция вознаграждения довольно проста.
Есть ли методология для работы с моей конфигурацией, которую я не исследовал?