Я думаю, что в целом сети, такие как retinaNet, пытаются восполнить пробел, о котором вы упоминаете. Обычно в одноэтапных сетях у нас будут якорные ящики различного масштаба в картах функций, создаваемых сетью Backbone. Эти карты функций создаются сильно Выборка входного изображения. Много информации о маленьком объекте может быть потеряно при выполнении этой операции. Хотя это имеет место с одноступенчатыми детекторами, в двухкаскадных детекторах из-за гибкости сети RPN сеть RPN может по-прежнему предлагать области, которые малы, и это может помочь ему работать немного лучше, чем его одноэтапные аналоги.
Я не думаю, что вы должны быть очень удивлены тем, что оба из них могут использовать одну и ту же магистраль. После извлечения функциональных возможностей обе сети используют разные методы для обнаружения.
Надеюсь, это поможет, Дайте мне знать, если я не достаточно ясно, или у вас есть вопросы.