Во время обучения Mask RCNN с использованием TensorFlow Object Detection API, что такое «потеря»? - PullRequest
0 голосов
/ 24 января 2019

Я тренируюсь для Обнаружения пользовательских объектов с использованием Маска RCNN in Обнаружение объектов TensorFlow . Поэтому я должен предсказать маску экземпляра объекта вместе с ограничительной рамкой.

Предварительно обученная модель: mask_rcnn_inception_v2_coco

Ниже приведен снимок моей тренировки.

ИНФОРМАЦИЯ: тензор потока: глобальный шаг 4181: потеря = 0,0031 (3,290 с / шаг)

ИНФОРМАЦИЯ: тензор потока: глобальный шаг 4181: потеря = 0,0031 (3,290 с / шаг)

ИНФОРМАЦИЯ: тензор потока: глобальный шаг 4182: потеря = 0,0030 (2,745 с / шаг)

ИНФОРМАЦИЯ: тензор потока: глобальный шаг 4182: потеря = 0,0030 (2,745 с / шаг)

В этом случае, не могли бы вы сказать, в чем здесь потеря?

Мои вопросы не связаны с потерей обучения и ее вариациями w.r.t. шаги.

Мне просто непонятно, что подразумевается под этой потерей во время тренировки маски RCNN? В маскирующем RCNN на последнем слое есть 3 параллельные головки,

  • для определения класса
  • для прогнозирования ограничительной рамки
  • для прогнозирования масок экземпляра

В таком случае, что такое потери?

1 Ответ

0 голосов
/ 24 января 2019

Функция потерь бумаги Mask R-CNN объединяет взвешенную сумму 3 потерь (3 выхода): маска классификации, локализации и сегментации:

image

The classification and bounding-box (localization) losses are the same as in Faster R-CNN.

What is added is a per-pixel sigmoid + binary loss for the mask. The mask branch generates a mask for each class, without competition among classes (so if you have 10 classes the mask branch predicts 10 masks). The loss being used is per-pixel sigmoid + binary loss.

If you want to dive in a little bit deeper into the mask loss, the paper states that "Multinomial vs. Independent Masks: Mask R-CNN decouples mask and class prediction: as the existing box branch predicts the class label, we generate a mask for each class without competition among classes (by a per-pixel sigmoid and a binary loss). In Table 2b, we compare this to using a per-pixel softmax and a multinomial loss (as commonly used in FCN [30])."

you can see it in the бумага на странице № 6, таблица № 2.b («Полиномиальные против независимых масок»).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...