Учебный комплект : Набор примеров, используемых для обучения, который подходит
параметры [то есть, веса] классификатора.
Набор для проверки :
Набор примеров, используемых для настройки параметров [то есть, архитектуры, а не весов] классификатора, например, для выбора количества скрытых единиц в нейронной сети.
Тестовый набор :
Набор примеров используется только для оценки производительности [обобщения] полностью определенного классификатора.
С ftp: //ftp.sas.com/pub/neural/FAQ1.txt раздел " Что такое популяция, образец, набор для обучения, набор дизайна, проверка "
Поверхность ошибки будет отличаться для разных наборов данных из вашего набора данных (пакетное обучение). Поэтому, если вы найдете очень хорошие локальные минимумы для данных вашего набора тестов, это может быть не очень хорошей точкой, а может быть очень плохой точкой на поверхности, созданной другим набором данных для той же проблемы. Поэтому вам необходимо вычислить такую модель, которая не только находит хорошую конфигурацию веса для тренировочного набора, но также должна быть в состоянии предсказать новые данные (которых нет в обучающем наборе) с хорошей ошибкой. Другими словами, сеть должна иметь возможность обобщать примеров так, чтобы она изучала данные и не просто запоминала или загружала обучающий набор, перегружая обучающие данные.
Набор данных проверки - это набор данных для функции, которую вы хотите изучить, которую вы не используете напрямую для обучения сети. Вы тренируете сеть с набором данных, который вы называете набором обучающих данных. Если вы используете алгоритм на основе градиента для обучения сети, то поверхность ошибки и градиент в некоторой точке будут полностью зависеть от набора обучающих данных, таким образом, набор обучающих данных напрямую используется для корректировки весов. Чтобы убедиться, что вы не перегружаете сеть, вам нужно ввести проверочный набор данных в сеть и проверить, находится ли ошибка в некотором диапазоне. Поскольку набор валидации не используется напрямую для настройки весов netowork, следовательно, хорошая ошибка для валидации, а также для набора тестов указывает на то, что сеть хорошо прогнозирует для примеров наборов поездов, также ожидается, что она будет работать хорошо, когда новые пример представлен в сети, которая не использовалась в процессе обучения.
Ранняя остановка - это способ прекратить тренировки. Доступны различные варианты, основной план таков: отслеживаются ошибки как поезда, так и набора проверки, ошибка поезда уменьшается на каждой итерации (backprop и brothers) и сначала уменьшается ошибка проверки. Обучение останавливается в тот момент, когда ошибка проверки начинает расти. Конфигурация веса в этой точке указывает на модель, которая хорошо предсказывает данные тренировки, а также данные , которые не видны в сети . Но поскольку данные проверки на самом деле косвенно влияют на конфигурацию веса, чтобы выбрать конфигурацию веса. Вот где приходит набор тестов. Этот набор данных никогда не используется в процессе обучения. Как только модель выбрана на основе набора проверки, данные набора тестов применяются к сетевой модели и обнаруживается ошибка для этого набора. Эта ошибка является представителем ошибки, которую мы можем ожидать от абсолютно новых данных для той же проблемы.
РЕДАКТИРОВАТЬ:
Кроме того, если у вас недостаточно данных для набора проверки, вы можете использовать перекрестная проверка для настройки параметров, а также для оценки ошибки теста.