Я тренирую CNN для мульти-меток, но у него около 160 меток, поэтому при использовании обычной архитектуры CNN с сигмоидом для выходного слоя и binary_crossentropy для потери сеть по-прежнему смещена для нулей, потому что функция потерь берет все выходы и нормализует их, поэтому наименьшая потеря произойдет, когда все выходные данные будут иметь нули, даже правильные метки, потому что они нормализованы. так у кого-нибудь есть решение?