Понимаете, вы должны понимать, что когда вы передаете информацию в нейронную сеть, она узнает что-то из нее, внедряет ее в память (обновляет веса) и забывает, какой ввод ей был дан, что означает, что когда вы даете ей кадры в последовательности, онана самом деле не имеет значения, в каком порядке вы даете ему кадры, он фокусируется только на кадрах, которые вы передаете ему прямо сейчас, это не то, что мы хотим при обработке видео, мы хотим, чтобы оно отслеживало некоторую историю из предыдущих кадров, которыеустанавливает связь между текущим кадром и его предшественниками, как правило, это то, что делают LSTM или RNN, они кодируют историю в NN, поэтому мы объединяем традиционные CNN и LSTM для кодирования истории кадров в наши CNN.Поэтому вместо того, чтобы использовать Alexnet и LSTM по отдельности, используйте CNN-LSTMS , вы можете использовать Alexnet в качестве магистрали для этой сети, и она должна работать
Теперь о том, почему стекирование каналов является неправильным, заключается в том, чтоВы в основном путаете это с этой объединенной информацией, объединение каналов изображений заставляет его обрабатывать N изображений как одно и, следовательно, это не то, что мы хотим, кроме того, вы можете сложить N изображений вертикально / горизонтально, так что части из каждого кадра включенына входе, но это просто создает дополнительную работу для NN и может привести к тому, что он ничего не изучит, так что вы могли бы сделать так, чтобы вместо подачи ввода на все узлы вы делали N равных разделов этих узлов и передавали каждыйстекировать изображение с уникальным набором узлов, так что вы бы хотели, чтобы у вас было видео с кадрами формы 100, 200, 3, и, скажем, N равно 5, поэтому, если вы вертикально складываете изображения, то входная форма вашего NNбудет 500,200,3, и вы можете иметь 1000 входных узлов, так что узлы 0-200 получат 0-100 200,3 пикселей, кадры 200-400 получат 100-200 200,3 пикселей и так далее.Но опять же, вы не можете гарантировать, что ваш NN узнает что-нибудь.
Если вы не одержимы использованием LSTM-CNN, вы можете попробовать описанный выше подход, но я не подтверждаю, что вы получите приемлемые результаты, ваш лучший подходиспользует LSTM-CNNS
Дополнительная информация Редактировать:
См. изображение выше, оно показывает традиционный NN, что мы делаемзаключается в том, что мы передаем все узлы нашего входного слоя всем узлам в следующем слое, поэтому, если бы входными узлами были фактически 5 изображений, наложенных друг на друга, все изображения были бы направлены на все узлы, и таким образом NN будетнужно научиться различать изображения, это не то, что мы хотим
То, что я предлагаю сделать, проиллюстрировано на диаграмме выше, вы складываете 5 изображенийдруг на друга, и вместо того, чтобы подавать весь стек изображений на каждый входной узел, мы разделяем наши входные узлы на разделы, поэтому, если мы сложим 5 изображений, мы получим 5 разделов, нетw узлы в разделе 1 получат только 1-е пиксели изображения, а узлы в разделе 2 получат только 2-е пиксели изображения и т. д., поэтому, если у вас есть 1000 входных узлов, первые 200 получат изображение 1, узлы 200-400 будутполучить изображение 2, узлы 400-600 получат изображение 3, узлы 600-800 получат изображение 4, а узлы 800-1000 изображение 5, затем вы можете позже соединить выходные узлы входных слоев и получить жизнеспособную архитектуру.Я надеюсь, что это лучше иллюстрирует мою точку зрения:)