Я выполняю задание Deep-Q Learning, и у меня есть последовательность из 4 изображений, которые я определил как состояние.Теперь я хочу передать эти 4 изображения в CNN и получить максимальное значение выходов относительно того, какое действие затем предпринять.Так как мне это сделать?Причина 4 изображения произведут 4 выхода softmax для каждого изображения с базовой структурой LeNet.У кого-нибудь есть какие-либо решения или ссылки на статьи, которые могут помочь мне здесь?