Отслеживание объектов не является функцией SSD или YOLO. Они рассматривают каждый новый кадр как совершенно другой.
То, что вы обнаружили объект в кадре N и «тот же» объект снова в кадре N + 1, не означает, что SSD / YOLO понимают, что это действительно один и тот же объект. У них нет понятия временной согласованности.
Самое простое, что нужно сделать, - это использовать инфраструктуру Vision для отслеживания объекта после его обнаружения с помощью SSD или YOLO. Смотрите VNTrackObjectRequest
класс.
Существует также пример кода от Apple, который показывает, как использовать Vision для отслеживания объектов.