У меня есть видеоданные, соответствующие человеческой деятельности.Я сегментировал наборы данных на фреймы и хочу создать функции для каждого из этих фреймов, используя архитектуру i3d.Проблема, с которой я сталкиваюсь, заключается в том, что входные данные i3d имеют размер 4D txhxwxc, где t - это временное измерение (количество кадров), поэтому выходные данные также имеют это измерение, но временное измерение изменяется из-за 3D-фильтров и ядер объединения в сетевой архитектуре.И общий метод для создания функции, описанной в литературе, заключается в том, чтобы усреднить 4D-вывод по временному измерению, чтобы получить общую функцию для каждого видео.Однако я хочу функции для каждого отдельного кадра каждого видео.Я подумываю использовать подход со скользящим окном, в котором для каждого кадра взять некоторые прошлые и будущие кадры в виде последовательности кадров и создать для этого особенность.Если у кого-нибудь есть какие-либо предложения для меня, это будет очень полезно.Большое спасибо.