Что касается второго шага (получение имени человека), я не думаю, что вам понадобится переподготовка для этого.
Вы можете использовать Convolutional LSTM или аналогичный nn. входная форма может быть (None,image_dimension_x,y,3)
(3 - цветовой канал для RGB)
, где None будет текущим общим количеством изображений в базе данных. Он передает все изображения в базе данных в nn и возвращает число в качестве индекса.
Или, в качестве альтернативы, вы можете использовать обычную свертку (без None) и заставить его выводить уверенность, которую он имеет для каждого изображенияв базе данных, чтобы быть человеком на камеру прямо сейчас. Затем выберите человека с самой высокой степенью уверенности.
Я бы сказал, что второе легче и, вероятно, лучше, это мое предложение в любом случае.
Надеюсь, это поможет:)