Вы можете использовать двоичную кросс-энтропийную потерю и установить в качестве меток ближайшие n-столбцы для истинности земли.
Например, у вас есть 10 пикселей, а метка истинности земли равна 3 и вы выбрали 3 соседей.
В типичной категориальной кросс-энтропии вы устанавливаете метку следующим образом, используя вектор с горячим кодированием.
[0 0 1 0 0 0 0 0 0 0]
ВРешение, которое я предложил, вы должны использовать это
[0 1 1 1 0 0 0 0 0 0]
Или это может быть так, в основном наложение гаусса вместо плоских меток.
[0 0,5 1 0,5 0 0 0 0 0 0]
Архитектуры обнаружения объектов, как предлагается в комментариях, также по существу ведут себя так же, как я описал.За исключением того, что они используют квантованную схему
[0 1 0 0 0 0 0 0 0] (фактические пиксели)
[- - 1 - - - - 0 - -] (сгруппировать в 2группы из 5. Ваша сеть теперь имеет только два выхода. Думайте об этом как о стадии биннинга, поскольку фактический пиксель принадлежит группе 1. эта подсеть использует двоичную кросс-энтропию).
[1 0] (первая классификационная сетьoutput)
[- 10 0] (этот второй этап можно рассматривать как дельта-сеть, он берет классифицированное значение бина из первого этапа и выводит корректирующее значение, так как первый бин привязан к индексу 2,вам нужно предсказать -1, чтобы переместить его в индекс 1. Эта сеть обучается с использованием сглаженной потери l1.
Теперь сразу возникает проблема, что, если в группе 1 есть два объекта?Это печальная проблема, которая также существует в архитектуре обнаружения объектов.Способ обойти это - определить слегка смещенные и масштабированные позиции бина (или якоря).Таким образом, вы можете обнаружить в одном пикселе максимум N объектов, где N - это количество якорей, определенных в этом пикселе.