Предположим, что вы строите модель для обнаружения объектов.
Модель обнаружения объектов CNN (для простоты, давайте выберем SSD) может состоять из базовой сети, которая служит для извлечения функций, в то время как модули обнаруженияполучить входные объекты (извлеченные из базовой сети) для генерации выходных данных, которые содержат классы объектов и координаты обнаруженных объектов (включая центр (x, y), высоту (h) и ширину (w) прогнозируемого блока)).
Для базовой сети мы обычно берем предварительно обученную сеть, такую как ResNet
, VGG
и т. Д., Которая уже обучалась на больших наборах данных, таких как ImageNet
, в надежде, что базовая сетьсоздать хороший набор функций для слоя обнаружения (или, по крайней мере, нам не нужно настраивать параметры базовой сети во время обучения, что помогает модели быстро сходиться).
Для модулей обнаружения это зависит от того, какие методы вы хотите использовать, например, одноэтапные (SSD, RetinaNet, YOLO и т. Д.) Или двухэтапные (более быстрый R-CNN)., В маске R-CNN и т. Д.).Между этими методами существует компромисс между точностью и скоростью, который является важным показателем того, какой модуль обнаружения вы должны выбрать.