Поскольку у вас есть точный размер ввода, такой как изображения в Cifar10 и Cifar100, просто посмотрите, что пробовали люди.
В общем, вы можете начать с чего-то вроде ResNet18. Также я не совсем понимаю, почему вы говорите
, потому что более 3 слоев будут работать с частями изображения, которые слишком малы, чтобы получать соответствующие данные.
До тех пор, пока вы не уменьшите выборку, используя что-то вроде максимального пула или конв с заполнением 1 и шагом 2. Размер 32x32 будет одинаковым, и только количество каналов будет меняться в зависимости от сеть.
Проектирование сетей - это почти всегда рассмотрение того, что делали другие люди, что им помогало, и начиная с этого. Вы почти никогда не захотите делать это с нуля самостоятельно, поскольку циклы итераций слишком продолжительны, а модели, выпущенные исследователями из Google, Facebook ... имеют гораздо больше ресурсов, чем вам когда-либо придется находить что-то хорошее.