Размеры изображения могут быть представлены 3 числами. Например, цветное изображение в наборе данных CIFAR-10 имеет высоту 32 пикселя, ширину 32 пикселя и представляется как 32 x 32 x 3. Здесь 3 представляет количество каналов в вашем изображении. Цветные изображения имеют размер канала 3 (обычно RGB), в то время как изображение в градациях серого имеет размер канала 1.
. CNN изучит особенности изображений, которые вы передаете, с повышением уровня сложности. Эти функции представлены каналами. Чем глубже вы go подключаетесь к сети, тем больше у вас будет каналов, представляющих эти сложные функции. Эти функции затем используются сетью для обнаружения объектов.
В вашем примере 18X18X1024 означает, что ваше входное изображение теперь представлено 1024 каналами, где каждый канал представляет некоторую сложную функцию / информацию об изображении.
Поскольку вы новичок, я предлагаю вам изучить, как работают CNN в целом, прежде чем углубляться в обнаружение объектов. Хорошим началом будет классификация изображений с использованием CNN. Надеюсь, это ответит на ваш вопрос. Счастливого обучения !! :)