"Сетевая архитектура T-CNN. Мы называем ядро с формой d × h × w, где d - глубина ядра, h и w - высота и ширина . Выходная матрица формы C × D × H × W, где C - количество каналов, D - количество кадров, H и W - высота и ширина кадра. Toi-pool2 существует только в TPN. "
Таблица выше взята из статьи, опубликованной о T-CNN (REF: https://arxiv.org/pdf/1703.10664.pdf)
Эта статья посвящена обнаружению активности по видео с использованием трехмерной сверточной модели.
Учитывая ядро, я предполагаю, что здесь для малого d, оно соответствует фрейму. Мы работаем над видеоклипами размером 300 x 400 и шириной 8 кадров. Я предполагаю, что это RGB и имеет 3 канала.
Я не понимаю, как получается выходное измерение, может кто-нибудь, пожалуйста, помогите объяснить, как канал (C) 64?
Как учитывает ли ядро RGB при свертывании?