Возможно, самая полезная вещь была бы, если бы вы могли создать свой собственный набор данных. Это будет простая проблема классификации. Сделайте много записей с камерой (с объектами: класс 1) и (без объектов: класс 0).
Затем используйте простую трехмерную модель CNN для обучения классификатора. Вы можете использовать tenorflow.keras, чтобы быстро создать прототип модели.
Вот так выглядит очень простой 3D CNN в Керасе.
model = Sequential()
model.add(Conv3D(32, kernel_size=(3, 3, 3), activation='relu', kernel_initializer='he_uniform', input_shape=sample_shape))
model.add(MaxPooling3D(pool_size=(2, 2, 2)))
model.add(Conv3D(64, kernel_size=(3, 3, 3), activation='relu', kernel_initializer='he_uniform'))
model.add(MaxPooling3D(pool_size=(2, 2, 2)))
model.add(Flatten())
model.add(Dense(256, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(2, activation='softmax')) # 2 as you have 2 classes