Почему Re sNet удваивает свои функциональные каналы после каждого этапа, а не в 4 раза? - PullRequest
0 голосов
/ 16 июня 2020

Мне любопытно, чем объясняется общий паттерн в магистралях зрения, таких как Re sNet и другие, где количество каналов функций удваивается в конце каждого этапа.

Можно сказать, что учетверение будет более естественным, так как это сохранит "размер" функции одинаковым между этапами.

т.е. 256 каналов с разрешением 32x32 - это 262144 функции, а 512 каналов с разрешением 16x16 - это 131 072 функции ( вдвое меньше)

Не может ли это ограничить количество высокоуровневых функций, которые может использовать детектор? Были ли эксперименты, исследующие это?

1 Ответ

0 голосов
/ 23 июня 2020

Прежде всего, я не вижу веских доводов в пользу того, почему вы хотите, чтобы "размер" объекта был "постоянным" по всем слоям. Если вы посмотрите на идею Deep CNN, это больше касается использования представления небольших областей изображения, изученных на начальных уровнях, для изучения высокоуровневых и более сложных функций на более глубоких уровнях. Итак, как бы вы утверждали, что вектор признаков длины l в слое n не кодирует такой же объем информации, как вектор признаков той же длины на уровне n-1.

Я полагаю, что это решения носят скорее экспериментальный, чем аналитический характер.

Вы можете изучить этот документ, чтобы получить больше интуиции о том, о чем вы спрашиваете.

https://cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

...