- Я тренирую модель и, используя первоначальную скорость обучения автора (я тоже использую их github), я получаю потерю проверки, которая постоянно колеблется, она будет уменьшаться, но затем внезапно скачет к большому значению, а затем снова уменьшается, но никогда не сходится, так как самое низкое значение - 2 (в то время как потери при обучении сходятся к 0,0 с чем-то - намного ниже 1)
В каждую эпоху я получаю точность обучения, а в конце - точность проверки. Точность валидации всегда выше точности обучения.
Когда я тестирую на реальных данных испытаний, я получаю хорошие результаты, но мне интересно, не подходит ли моя модель. Я ожидаю, что потеря val хорошей модели сходится подобным образом с потерей обучения, но этого не происходит, и тот факт, что потеря val колеблется до очень больших значений, иногда беспокоит меня.
- Регулируя скорость обучения, планировщик и т. Д. И т. Д., Я получил потерю val и тренировку в сторону понижения с меньшими колебаниями, но на этот раз точность моего теста остается низкой (а также точность обучения и валидации)
Я попробовал пару оптимизаторов (adam, sgd, adagrad) с планировщиком шагов, а также pleateu один из pytorch, я играл с размерами шагов и т. Д., Но это не помогло, равно как и отсечение градиентов.
- Моя модель переоснащается?
- Если так, как я могу уменьшить переоснащение помимо увеличения данных?
- Если нет (я читал, что некоторые люди на кворе говорили, что беспокоиться не о чем, хотя я думаю, что это должно быть слишком много), как я могу это оправдать? Даже если бы я получил аналогичные результаты для k-кратного эксперимента, было бы достаточно хорошо? Я не думаю, что это оправдало бы колебания. Как мне поступить?