Ваш первый пункт верен. Свертки - это, по сути, способы изменения и извлечения признаков из данных. Мы делаем это путем создания m изображений, каждое из которых смотрит на определенный кадр исходного изображения. На этом первом сверточном слое мы затем берем n изображений для каждого извилистого изображения в первом слое.
SO: k1 * k2 будет общим количеством изображений.
Для достижения этой цели, свертка работает путем создания карт характеристик изображения. Когда у вас есть последовательные сверточные слои, вы создаете карты объектов с картами объектов. Т.е. если я начну с 1 изображения, и мой первый сверточный слой имеет размер 20, то у меня будет 20 изображений (точнее, карт объектов) в конце свертки 1. Затем, скажем, я добавляю вторую свертку размера 10. Что происходит Затем я делаю 10 карт функций для каждого 1 изображения. Таким образом, это будет 20 * 10 изображений = 200 карт объектов.
Скажем, например, у вас есть изображение 50x50 пикселей. Допустим, у вас есть сверточный слой с фильтром размером 5х5. Если у вас нет отступов или чего-либо еще), вы «скользите» по изображению и получаете средневзвешенное значение пикселей на каждой итерации слайда (в зависимости от вашего местоположения). Затем вы получите выходную карту объектов размером 5х5. Допустим, вы делаете это 20 раз (т.е. свертка 5x5x20). Затем вы получите 20 карт характеристик размером 5x5. На диаграмме, упомянутой в посте нейронной сети VGG ниже, на диаграмме показано только количество карт объектов, которые будут сделаны для входящих карт объектов, а не конечная сумма карт объектов.
Надеюсь, это объяснение было полным!