Мне любопытно, чем объясняется общий паттерн в магистралях зрения, таких как Re sNet и другие, где количество каналов функций удваивается в конце каждого этапа.
Можно сказать, что учетверение будет более естественным, так как это сохранит "размер" функции одинаковым между этапами.
т.е. 256 каналов с разрешением 32x32 - это 262144 функции, а 512 каналов с разрешением 16x16 - это 131 072 функции ( вдвое меньше)
Не может ли это ограничить количество высокоуровневых функций, которые может использовать детектор? Были ли эксперименты, исследующие это?