Большинство ресурсов предложили использовать потери BCE из-за наказания за класс, но я нашел примеры, которые иллюстрируют, что потеря CE работает лучше, чем потеря BCE в многослойной задаче. Например: https://research.fb.com/wp-content/uploads/2018/05/exploring_the_limits_of_weakly_supervised_pretraining.pdf стр. 5, функция потерь.
Итак, каковы различия, преимущества, недостатки одного по сравнению с другим?