Layer (type) Output Shape Param #
================================================================
conv2d_4 (Conv2D) (None, 26, 26, 32) 320
________________________________________________________________
conv2d_5 (Conv2D) (None, 24, 24, 64) 18496
________________________________________________________________
conv2d_6 (Conv2D) (None, 22, 22, 64) 36928
================================================================
Total params: 55,744
Trainable params: 55,744
Non-trainable params: 0
Автор говорит:
3 × 3 windows на третьем уровне будет содержать только информацию, поступающую из 7 × 7 windows в исходном вводе. Паттерны высокого уровня, изученные con vnet, будут по-прежнему очень малы относительно начального ввода, которого может быть недостаточно, чтобы научиться классифицировать цифры (попробуйте распознать di git, просто посмотрев на него через * 1013. * размером 7 × 7 пикселей!). Нам нужно, чтобы элементы из последнего слоя свертки содержали информацию обо всех входных данных.
Теперь, откуда взялось это окно 7x7? Разве окно в первом слое также не 3x3? Что мне не хватает?