Я имею дело с бинарной несбалансированной классификацией и использую фокусные потери, чтобы улучшить свои результаты.В оригинальной статье упоминается, что веса должны инициализироваться по-разному в отношении проблемы сбалансированной двоичной классификации, чтобы предотвратить нестабильность в процессе обучения.
Это статья, которую я имею в виду https://arxiv.org/abs/1708.02002 (разделы 3.3 и 4.1).
В частности, они говорят:
Все новые конвойные слои, кроме последнего в подсетях RetinaNet, инициализируются со смещением b = 0 и гауссовскимВес заполнить с theta = 0.01
.Для окончательного уровня соответствия подсети классификации мы устанавливаем инициализацию смещения на b = − log((1 − pi)/pi)
, где pi
указывает, что в начале обучения каждый якорь должен быть помечен как передний план с уверенностью pi
.Мы используем pi = .01
во всех экспериментах, хотя результаты устойчивы к точному значению.
Поскольку мои тренировки очень нестабильны, мне было интересно, как инициализировать ядра в кератах.