Большинство архитектур CNN используют размеры изображений, которые содержат несколько факторов 2. Таким образом, вы можете несколько раз уменьшить частоту дискретизации изображений, используя MaxPooling, без необходимости округлять разрешение до ближайшего целого числа.
512 -maxpool-> 256 -maxpool-> 128 -maxpool-> 64 -maxpool-> 32 ...
Иногда вы будетесталкивайтесь с решениями, где это не работает.U-Net, например, использует разрешения 572 * 572, где вы можете применить MaxPooling дважды, пока вам не придется округлить разрешение.Это связано с тем, что U-Net использует незаполненные свертки, в которых часть изображения обрезается во время сверточных слоев перед применением MaxPooling.
572 -conv-> 570 -conv-> 568 -maxpool-> 284 -conv-> 282 -conv-> 280 -maxpool-> 140 ...
Мне не известны какие-либо документы, в которых оценивалось влияние разрешений округления во времяMaxPooling, но моя идея состоит в том, что это, вероятно, не улучшает вещи.Лично я несколько раз использовал округление при заданном входном разрешении и не заметил разницы по сравнению с кадрированными частями изображений.