Я пытаюсь использовать потерю шарнира в densenet для набора данных CIFAR 100.Обучение сходится к некоторому моменту, и после этого обучения не происходит.Точность намного меньше, чем у Densenet с функцией потерь CrossEntropy.Я пытался с разными темпами обучения и снижения веса.
Есть идеи, почему я не могу правильно тренировать Денсенет с потерей шарнира?Я могу использовать потерю шарнира с Resnet без каких-либо проблем.