Question

Мне любопытно, чем объясняется общий паттерн в магистралях зрения, таких как Re sNet и другие, где количество каналов функций удваивается в конце каждого этапа.

Можно сказать, что учетверение будет более естественным, так как это сохранит "размер" функции одинаковым между этапами.

т.е. 256 каналов с разрешением 32x32 - это 262144 функции, а 512 каналов с разрешением 16x16 - это 131 072 функции ( вдвое меньше)

Не может ли это ограничить количество высокоуровневых функций, которые может использовать детектор? Были ли эксперименты, исследующие это?

Piyush Kansal · Answer 1 · 23 июня 2020

Прежде всего, я не вижу веских доводов в пользу того, почему вы хотите, чтобы "размер" объекта был "постоянным" по всем слоям. Если вы посмотрите на идею Deep CNN, это больше касается использования представления небольших областей изображения, изученных на начальных уровнях, для изучения высокоуровневых и более сложных функций на более глубоких уровнях. Итак, как бы вы утверждали, что вектор признаков длины l в слое n не кодирует такой же объем информации, как вектор признаков той же длины на уровне n-1.

Я полагаю, что это решения носят скорее экспериментальный, чем аналитический характер.

Вы можете изучить этот документ, чтобы получить больше интуиции о том, о чем вы спрашиваете.

https://cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

Почему Re sNet удваивает свои функциональные каналы после каждого этапа, а не в 4 раза?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему Re sNet удваивает свои функциональные каналы после каждого этапа, а не в 4 раза?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы