Я проектирую нейронную сеть (100 входов - 100 скрытых единиц - 100 выходов) для задачи регрессии. Я использую ADAM в качестве оптимизатора и выбываю со скоростью 0,3 для регуляризации.
Данные обучения получены по 5 различным предметам, поэтому я использую LOSO-Cross-validation для оценки различных комбинаций гиперпараметров (размер партии, количество эпох и скорость обучения).
Так, например, рассматривая тему 1:
Я обучаю сеть, используя функции из предметов 2-5 (давайте назовем это X_cv_train) и оцениваю ее эффективность, используя тему 1 (давайте назовем это X_cv_valid).
Проблема заключается в том, что после выполнения LOSO-XV для некоторых субъектов MSE, рассчитанная по набору проверки их складывания, значительно выше, чем MSE, вычисленная на их тренировочном наборе.
Например, для субъекта 1 MSE для X_cv_train составляет 0,009, а MSE для X_cv_valid - 0,013 (кажется разумным), но для субъекта 3 MSE для X_cv_train - 0,008 и MSE для X_cv_valid - 0,04 (кажется, слишком высоким).
Среднее значение MSE в обучающем наборе составляет 0,009, а среднее значение MSE в проверочном наборе - 0,022.
Как правильно поступить?