Что это значит, если моя сеть никогда не сможет перегрузиться вне зависимости от того, насколько я ее обучу или увеличу пропускную способность? - PullRequest
0 голосов
/ 22 апреля 2019

Я обучил модель, получил приличные результаты, но потом я стал жадным и хотел еще большей точности, поэтому я тренировал модель дольше, дольше и дольше, но безрезультатно, ничего не происходит! согласно теории, в какой-то момент точность проверки должна начать снижаться после слишком большого обучения (потеря начинается с УВЕЛИЧЕНИЯ)! но этого никогда не происходит. Итак, я подумал, что NN слишком прост, чтобы когда-либо иметь возможность его переоборудовать, поэтому я увеличил его емкость и у меня были миллионы параметров, и я тренировал его в течение 10 000 эпох, но переоснащения не происходит.

Тот же вопрос был задан здесь , но ответы на него есть только удовлетворительные.

Что это значит?

1 Ответ

1 голос
/ 22 апреля 2019

Это известная вещь с моделями большой емкости. Они удивительно устойчивы к переоснащению, что противоречит классической статистической теории обучения, которая гласит, что без явной регуляризации вы будете переодеваться. Например, этот документ говорит

большинство глубоких нейронных сетей с изученными параметрами часто обобщают очень хорошо эмпирически, даже оснащен гораздо более эффективным параметры, чем количество обучающих образцов, то есть высокая емкость ... Таким образом, статистическая теория обучения не может объяснить обобщение способность глубокого изучения моделей.

Кроме того, это и это газеты говорят об этом. Вы можете продолжать читать ссылки в этих статьях, чтобы узнать больше.

Лично я никогда не видел перегрузок моделей с высокой пропускной способностью даже после тренировок в течение десятков тысяч эпох. Если вам нужен пример, который подходит больше: возьмите Lenet 5 для Cifar10 с активациями ReLU и без отсева и обучите его, используя SGD со скоростью обучения 0.01. Количество обучающих параметров в этой модели составляет ~ 60000 тысяч, что соответствует количеству выборок в Cifar10 (модель с низкой пропускной способностью). По истечении не более 500–1000 эпох вы увидите очень четкое переоснащение с увеличивающимися потерями и ошибками со временем.

...