Существенные отличия заключаются в том, что двухступенчатый Faster R-CNN-подобный более точный, а одноступенчатый YOLO / SSD-подобный более быстрый.
В двухэтапных архитектурах первый этап обычно предполагает предложение по региону, а второй - для классификации и более точной локализации. Вы можете думать о первом этапе как об одноэтапной архитектуре, когда различие состоит в том, что предложение региона отделяет только «объект» от «фона», тогда как одноэтапное различает все классы объектов. Более конкретно, на первом этапе, также в виде скользящего окна, RPN сообщает, присутствует ли объект или нет, и, если есть, - грубо указать область (ограничивающую рамку), в которой он находится. Этот регион используется на втором этапе для классификации и регрессии ограничивающего прямоугольника (для лучшей локализации), сначала объединяя соответствующие признаки из предложенного региона, а затем проходя через архитектуру, аналогичную быстрой R-CNN (которая выполняет классификацию + регрессию). .
Что касается вашего вопроса об обмене между ними - почему вы хотите это сделать? Обычно вы выбираете архитектуру в соответствии с вашими наиболее насущными потребностями (например, задержка / мощность / точность), и вы не захотите обмениваться между ними, если нет какой-то сложной идеи, которая каким-то образом вам поможет.