Что внутри dlib.train_shape_predictor? - PullRequest
0 голосов
/ 28 апреля 2020

Для моей работы мне нужно тренировать dlib.train_shape_predictor. Я собрал набор данных для обучения в iBUG по адресу: 300 Faces In-the-Wild Challenge (300-W), ICCV 2013

Но проблема в том, что после построения данных аннотаций я нашел большое количество изображений имеют ограничивающие рамки в неправильных положениях. В связи с этим они добавили комментарий к этим ограничивающим прямоугольникам в файле "tags_ibug_300w_train. xml" как:

"... Наконец, обратите внимание, что ограничивающие рамки взяты из детектора лица dlib по умолчанию . Для лиц, которые детектор не смог обнаружить, мы догадались, что бы ограничивающая рамка была бы, если бы детектор нашел ее и использовал это. "

Вот некоторые примеры изображений с неправильно локализованными ограничивающими прямоугольниками ( этот вид ошибочных ящиков большого количества):

enter image description here

enter image description here

Пока я нашел аннотации лицевого ориентира в порядке, но координаты ограничивающих рамок не все в порядке. (Здесь я только визуализирую ориентиры точек зрения. Но каждое из изображений содержит 68 ориентиров.)

Теперь для обучения мне нужно передать файл "tags_ibug_300w_train. xml" в "dlib.train_shape_predictor". () "в качестве параметров. Этот файл xml содержит координаты ориентира вместе с координатами ограничительной рамки для каждой грани. Но мне нужно знать, будут ли координаты этих ошибочных ограничивающих рамок создавать проблему или снижать производительность модели или нет. Вот почему мне нужно знать, что находится внутри этого "dlib.train_shape_predictor", как он обрабатывает файл xml, или обязательно использовать только формат xml или нет (или мне нужно исправить все ограничивающие блоки или не). Но, к сожалению, я не нашел никаких реализаций этого. В следующей ссылке я нашел только информацию аргументов, но не реализовал. dlib.train_shape_predictor

Пожалуйста, помогите мне принять решение.

...