Вот сценарий:
Я хочу преобразовать серию цен акций по t шагам для использования в CNN, чтобы попытаться предсказать будущее состояние при t + n шагах.
Я думаю о том, чтобы сделать следующее, но я понятия не имею, насколько это правильно или неправильно:
Возьмем цену закрытия на 32 шага за одну порцию образца. Создайте 4 из этих партий в общей сложности, чтобы сохранить их как полное состояние, с каждым сэмплом, перемещающимся на шаг t + 1 вперед. Таким образом, по существу, 2-й, 3-й и 4-й образцы будут по-прежнему содержать временные шаги, которые произошли на предыдущих этапах.
Я делаю это таким образом, так как я хочу рассматривать каждый образец как отдельное изображение, и на основе другого чтения предлагается, чтобы модели был дан «контекст» о состоянии (например, движущаяся машина, в одном образце / изображении вы не можете определить скорость, но с 4 вы можете). Таким образом, каждая выборка из 32 временных шагов представляет 1 изображение. С 4 примерами я получаю 4 изображения, чтобы получить контекст.
Так что возьмите эти 4 пакета в качестве одной основной серии для подачи в модель CNN. Тензор будет иметь грубую форму:
[
[[],[],[]...x32]
[[],[],[]...x32]
[[],[],[]...x32]
[[],[],[]...x32]
]
Это будет одно полное состояние, которое будет сохранено в памяти воспроизведения.
Таким образом, следующее состояние будет другой партией того же самого форма, однако она движется вперед еще на 4 шага. Итак, начальные временные шаги состояния: t + 0, t + 1, t + 2, t + 3 и следующие временные шаги состояния: t + 4, t + 5, t + 6, t + 7
Это мой первый вопрос о понимании.
Во-вторых, как включить цель в это состояние для модели DQN-HER? Я знаю, что это принимает состояние и цель, но как бы вы связали цель с таким тензором? Будет ли это просто объединение следующего состояния в этом случае?