После проведения некоторого литературного исследования по проверке лица и распознаванию / обнаружению исследовательских работ в области компьютерного зрения.Я думаю, что получил ответ на все мои вопросы, поэтому я пытаюсь ответить на него здесь.
Первый вопрос, вы бы сделали косинусное сходство?Можете ли вы добавить больше ясности?
Найдите минимальное расстояние между тестом и каждым сохраненным изображением поезда, просто вычислив евклидово расстояние между ними.
Не держите пороговое значение, скажем, 0,7, а минимальное расстояние составляет <0,7, верните имя сотрудника, иначе "нет ошибки в базе данных!"</p>
Второй вопрос. Кроме того, с точки зрения эффективности, как бы вы справились со сценарием, в котором в базе данных присутствует 100 000 сотрудников, обучающих кодировке изображений и длякаждому новому человеку нужно посмотреть эти 100 000 кодировок и вычислить косинусное сходство и дать результат в течение <2 секунд? </em>
- Следует отметить, что во время тренировки 128-мерное плаваниевектор используется, но он может быть квантован до 128 байтов без потери точности.Таким образом, каждая грань компактно представлена 128-мерным байтовым вектором, который идеально подходит для крупномасштабной кластеризации и распознавания.Меньшие вложения возможны при незначительной потере точности и могут использоваться на мобильных устройствах
Третий вопрос: - Прежде всего, мы изучаемсетевые параметры глубокой CNN (сиамские н / ж) путем минимизации функции потери триплета!
- Во-вторых, предполагалось, что вы обучили эти весовые коэффициенты модели на огромном наборе данных миллионов людей, что эти весовые коэффициенты изучили обе функции более высокого уровня, такие как личность человека, пол и т. Д.!А также низкоуровневые элементы, такие как края, относящиеся к человеческим лицам.
- Теперь существует предположение, что эти параметры модели вместе могут представлять любое человеческое лицо как минимум !, так что вы продолжите и сохраните кодировку "новый человек" вчерез базу данных, сделав пересылку вперед, а затем используйте ответ 1, чтобы вычислить, принадлежит ли человек организации или нет (проблема распознавания лиц).Более того, в статье FaceNet упоминается, что мы храним набор из около миллиона изображений, который имеет то же распределение, что и наш обучающий набор, но не разделяет личность.
- Третий Отличие этих двух методов состоит в том, как мы тренируем эти весовые коэффициенты модели в первом методе с использованием функции потерь: кросс-энтропия softmax против функции потерь во втором методе:функция потери триплета!