Это очень широкий предмет, но ИМХО, вам следует попробовать очаговая потеря : его представили Цунг-Йи Лин, Прия Гоял, Росс Гиршик, Кайминг Хе и Петр Доллар для обработки прогноза дисбаланса при обнаружении объекта. С тех пор как оно появилось, оно также использовалось в контексте сегментации.
Идея очаговых потерь состоит в том, чтобы уменьшить как потери, так и градиент для правильного (или почти правильного) прогнозирования, подчеркивая при этом градиент ошибок.
Как видно на графике:
Синяя кривая - это регулярные кросс-энтропийные потери: с одной стороны, она имеет незначительные потери и градиент даже для хорошо классифицированных примеров, а с другой стороны, имеет более слабый градиент для ошибочно классифицированных примеров.
Напротив, потеря фокуса (все другие кривые) имеет меньшие потери и более слабый градиент для хорошо классифицированных примеров и более сильные градиенты для ошибочно классифицированных примеров.