Я пытаюсь реализовать алгоритм глубокого обучения по распознаванию походки.Но у меня есть некоторые проблемы в процессе изменения формы перед подачей данных в сеть.
Я использую набор данных CasiaB, который содержит 124 объекта с 10 различными условиями переноски (7 для тренировки) и изображения, взятые из 11разные углы.В каждом углу есть 50 кадров (сделали заполнение для отсутствующих) с размером изображения 64x64.Я попытался реализовать модель CNN-LSTM, модель со слоями ConvLSTM2D, но безуспешно.
Я нашел похожую работу, но это проблема многих ко многим, тогда как моя проблема много к одному.
Понимание ConvLSTM2D путем наложения слоев Convolution2D и LSTM с использованием TimeDistributed для получения аналогичных результатов
Что делать с формами данных при подаче их в CNN или из CNN вLSTM слои?Какие различия нужно делать с формой цели (y_train), как в посте над ее 5-мерным, но мне нужна 3-мерная цель, так как это проблема много-к-одному?