Вы можете разбить его следующим образом:
1 - выбрать между ограничительной рамкой и семантической сегментацией
2 - выбрать предварительно обученную модель после выбора вашей структуры (Tensorflow в вашем случае),Вам нужно побороться с реальным временем против точности 2,1. Лучшим, на мой взгляд, был бы Deeplab на основе MobilenetV2 (сегментация) или NASNET (ограничивающий прямоугольник)
3 - Возобновите его для обучения передаче, если автомобили и люди не находятся ввашей модели, в противном случае вам не нужно
4 - искать оптимизацию модели, если это необходимо для Jetson TK1 (сжатие и т. д.)
5 - после успешного развертывания, когда он начинает искать человека и автомобили, разработайтеваша логика о том, как это должно вас насторожить.(например, отсутствие машины для x последовательных кадров или присутствие человека для x последовательных кадров и т. д.)
Счастливого Surveillaying!