, если вход сети сначала 224x224, то число параметров должно отличаться от 448x448
Это ваше недопонимание.
Сверткаоперация не имеет ограничений по размеру ввода и, следовательно, по размеру вывода.Когда вы тренируете CNN, в конце которого есть полностью соединенные слои, для классификации, вы ограничиваете входные данные фиксированным размером, поскольку число входных данных, которое может принять слой FC, является фиксированным.
Но если вы удалите головку классификации из сети и будете использовать только обученные веса CNN в качестве экстрактора признаков, вы заметите, что при вводе любого измерения (> = измерение, в котором обучалась сеть),выходными данными будет набор карт объектов, пространственный экстент которых увеличивается с увеличением пространственного экстента входных данных.
В YOLO, следовательно, сеть изначально обучена выполнять классификацию с разрешением 224x224.Таким образом, веса операции свертки + веса слоев FC в конце научились извлекать и классифицировать значимые элементы.
После этой первой тренировки слои FC выбрасываются, и только часть извлечения признаковсохраняется.Таким образом, вы можете использовать хороший инструмент извлечения объектов, который уже научился извлекать значимые объекты сверточным способом (например, создавая в качестве выходных данных не вектор объектов, а карту объектов, который может быть подвергнут последующей обработке, как YOLO)