То, что я всегда вижу в статьях и статьях о недо / переоснащении, это спадающая кривая для ошибки тренировки и U-образная кривая для ошибки тестирования, говоря, что область, оставленная до дна U-кривой, подвержена недостаточному подгонке, и площадь право на это подлежит переоснащению.
Чтобы найти лучшую модель, мы можем протестировать каждую конфигурацию (например, изменить количество узлов и слоев) и сравнить значения ошибки теста, чтобы найти минимальную точку (обычно с помощью перекрестной проверки). Это выглядит просто и идеально.
Нужен ли регуляризатор для достижения этой цели? Это то, что я не уверен, я понял эту тему хорошо. Мне кажется, что нам не нужен регуляризатор, если мы можем тестировать различные конфигурации моделей. Единственный случай, когда регуляризатор вступает в игру, это когда мы имеем фиксированную конфигурацию модели (например, фиксированное количество узлов и слоев) и не хотим пробовать другие конфигурации, поэтому мы используем регуляризатор, чтобы ограничить сложность модели путем принудительного применения других параметров модели. (например, вес сети) до низких значений. Правильно ли это мнение?
Но если это правильно, то какова интуиция за этим? Прежде всего, при использовании регуляризатора мы заранее не знаем, приведут ли нас эта конфигурация / сложность сети к правому или левому краю минимума кривой ошибок тестирования. Это может быть уже подгонка, наряд или подгонка. Если оставить в стороне математику, то почему приведение весов к более низким значениям приведет к тому, что сеть станет более обобщенной и будет менее перегруженной? Есть ли аналогия этого метода с предыдущим методом перемещения по кривой тестовых потерь, чтобы найти ее минимум? Также регуляризатор делает свою работу во время тренировок, он ничего не может сделать с тестовыми данными. Как это может помочь приблизиться к минимальной ошибке теста?