Я читал документ VGG16 очень глубокие сверточные сети для крупномасштабного распознавания изображений
В 3.2 TESTING говорится, что все полностью связанные слои заменены некоторыми слоями CNN
А именно, полностью связанные слои сначала преобразуются в сверточные слои (первый слой F C в слой 7 × 7. последние два слоя F C до слоев 1 × 1). Получившийся полностью сверточный net затем применяется ко всему (необрезанному) изображению. Результатом является карта оценок классов с числом каналов, равным количеству классов, и переменным пространственным разрешением, зависящим от размера входного изображения. Наконец, для получения вектора оценок классов с фиксированным размером для изображения, карта оценок классов пространственно усредняется (суммируется)
Таким образом, архитектура VGG16 (конфигурация D) при прогнозировании при тестировании набор будет
input=(224, 224)
conv2d(64, (3,3))
conv2d(64, (3,3))
Maxpooling(2, 2)
conv2d(128, (3,3))
conv2d(128, (3,3))
Maxpooling(2, 2)
conv2d(256, (3,3))
conv2d(256, (3,3))
conv2d(256, (3,3))
Maxpooling(2, 2)
conv2d(512, (3,3))
conv2d(512, (3,3))
conv2d(512, (3,3))
Maxpooling(2, 2)
conv2d(512, (3,3))
conv2d(512, (3,3))
conv2d(512, (3,3))
Maxpooling(2, 2)
Dense(4096) is replaced by conv2d((7, 7))
Dense(4096) is replaced by conv2d((1, 1))
Dense(1000) is replaced by conv2d((1, 1))
То есть эта архитектура используется только для тестирования?
Имеют ли последние 3 CNN-слоя все 1000 каналов ?
В результате получается карта оценок классов с количеством каналов, равным количеству классов
Поскольку размер входного файла равен 224 * 224, размер выходного файла после последний слой Maxpooling будет (7 * 7) . Почему написано переменное пространственное разрешение ? Я знаю, что это делает мультиклассовый масштаб, но он будет обрезан до (224, 224) изображения перед вводом.
И как VGG16 получает (1000,) вектор? Что является пространственно-средним (суммированным) здесь? Это просто добавляет сумма пула с размером (7, 7) , чтобы получить массив (1, 1, 1000) ?
карта баллов классов пространственно усредняется (суммируется)
В 3.2 ТЕСТИРОВАНИЕ
Кроме того, оценка нескольких культур дополняет плотную оценку из-за различные граничные условия свертки: при применении Con vNet к обрезке карты свернутых объектов дополняются нулями, в то время как в случае плотной оценки заполнение для той же обрезки естественным образом происходит из соседних частей изображения (из-за как свертки, так и пространственное объединение), что существенно увеличивает общее восприимчивое поле сети, поэтому захватывается больше контекста.
Таким образом, оценка нескольких культур и плотная оценка будет использоваться только для набора проверки?
Допустим, входной размер равен (256, 256), мультиобрезка может получить размер (224, 224) изображения, где центр обрезанного изображения может быть другим, скажем [0:223, 0:223]
или [1:224, 1:224]
. Правильно ли я понимаю мультикультуру?
А что такое плотная оценка? Я пытаюсь найти их в Google, но не могу получить релевантные результаты.