В Deep Learning можем ли мы иметь точность обучения намного меньше 100% при глобальном минимуме функции потерь?
Я кодировал нейронную сеть в python для классификации кошек и не кошек. Я выбрал 2-х слойную сеть. Он дал точность поезда 100% и точность испытания 70%.
Когда я увеличил #layers до 4, функция потерь застревает на 0,6440, что приводит к точности поезда 65% и точности теста 34% для многих случайных инициализаций.
Мы ожидаем, что точность нашего поезда на четырехслойной модели должна составлять 100%. Но мы застряли на 65%. Мы думаем, что функция потерь достигает глобального минимума, так как при многих случайных инициализациях мы стагнируем значение потери 0,6440. Итак, хотя функция потерь достигает глобального минимума, почему точность поезда не достигает 100%? Отсюда наш вопрос: «В глубоком обучении мы можем иметь ненулевую точность обучения при глобальном минимуме функции потерь?»