Я не уверен, какую книгу вы читаете, поэтому некоторая справочная информация может помочь, прежде чем я конкретно отвечу на вопросы.
Во-первых, увеличение количества эпох не обязательно приведет к переобучению, но это, безусловно,сможет сделать.Если скорость обучения и параметры модели невелики, может потребоваться много эпох, чтобы вызвать измеримое переоснащение.Тем не менее, как правило, для этого требуется больше обучения.
Чтобы держать вопрос в перспективе, важно помнить, что мы чаще всего используем нейронные сети для построения моделей, которые мы можем использовать для прогнозирования (например, прогнозированияизображение содержит конкретный объект или значение переменной на следующем шаге по времени).
Мы строим модель путем итеративной корректировки весов и смещений, чтобы сеть могла действовать как функция для преобразования между входными даннымиданные и прогнозируемые результаты.Мы обращаемся к таким моделям по ряду причин, часто потому, что мы просто не знаем, что это за функция / должна быть, или эта функция слишком сложна для аналитического развития.Чтобы сеть могла моделировать такие сложные функции, она должна быть сама по себе очень сложной.Хотя эта сложность является мощной, она опасна!Модель может стать настолько сложной, что она может очень точно запоминать данные обучения, но затем не сможет действовать как эффективная общая функция, которая работает с данными вне обучающего набора.Т.е. это может переобучиться.
Вы можете думать об этом как о чем-то похожем на кого-то (модель), который учится выпекать, только снова и снова выпекая фруктовый торт (тренировочные данные) - скоро они смогутиспечь превосходный фруктовый торт без использования рецепта (обучения), но они, вероятно, не смогут испечь бисквит (невидимые данные) очень хорошо.
Назад к нейронным сетям!Поскольку риск переобучения высок при использовании нейронной сети, существует много инструментов и приемов, доступных для инженера по глубокому обучению для предотвращения переобучения, такого как использование отсева.Эти инструменты и приемы все вместе известны как «регуляризация».
Именно поэтому мы используем стратегии разработки и обучения, включающие наборы тестовых данных - мы делаем вид, что тестовые данные не видны, и отслеживаем их во время обучения.Вы можете увидеть пример этого на графике ниже ( Изображение предоставлено ).Примерно через 50 эпох точность теста начинает расти, поскольку модель начала «запоминать тренировочный набор», несмотря на то, что точность обучения остается на минимальном значении (часто точность обучения будет продолжать улучшаться).
Итак, чтобы ответить на ваши вопросы:
Разрешение модели продолжить обучение (т. Е. Большее количество эпох) увеличивает риск весов исмещения настраиваются до такой степени, что модель плохо работает с невидимыми (или проверочными / проверочными) данными.Модель теперь просто «запоминает тренировочный набор».
Продолжающиеся эпохи могут значительно повысить точность обучения, но это не обязательно означает, что предсказания модели на основе новых данных будут точными - частоэто на самом деле становится хуже.Чтобы предотвратить это, мы используем набор тестовых данных и отслеживаем точность теста во время обучения.Это позволяет нам принимать более обоснованное решение о том, становится ли модель более точной для невидимых данных.
Мы можем использовать метод, называемый Ранняя остановка , посредством чего мыпрекратите обучение модели, как только точность теста перестает улучшаться после небольшого количества эпох.Ранняя остановка может рассматриваться как еще один метод регуляризации.