Вам может понадобиться создать свой собственный набор данных, используя кадры с дорожной камеры и вручную пометить изображения автомобилями, где ремни безопасности пассажиров пристегнуты или не пристегнуты, поскольку это очень специализированная задача. Оттуда вы можете сделать увеличение данных (возможно, используя класс Keras ImageDataGenerator). Если человек может определить ремень безопасности на размытом или шумном изображении, модель может извлечь из него урок. Оттуда вы можете использовать трансферное обучение из предварительно обученной модели CNN, такой как Inception ( this - полезное руководство для того, как это сделать), или обучить свой собственный двоичный классификатор с вашими помеченными изображениями, где ваши входные данные являются кадрами видео камеры движения.
Я бы предположил, что после изучения основ CNN с этими моделями, только тогда вы должны погрузиться в более сложную модель, такую как yolo.