Если ваш набор данных сильно дифференцирован, вы можете страдать от своего рода «раннего перетекания».Если ваши перемешанные данные включают в себя кластер связанных, сильно показательных наблюдений, первоначальное обучение вашей модели может плохо сместиться к этим признакам - или, что еще хуже, к случайным признакам, которые вообще не имеют отношения к теме.
Разминка - это способ уменьшить эффект первенства на примерах раннего обучения.Без этого вам может потребоваться запустить несколько дополнительных эпох, чтобы получить желаемую конвергенцию, поскольку модель развивает эти ранние суеверия.
Многие модели допускают это в качестве опции командной строки.Скорость обучения увеличивается линейно в течение периода разогрева.Если целевая скорость обучения равна p
, а период прогрева равен n
, то для первой итерации пакета используется 1*p/n
в качестве скорости обучения;вторая использует 2*p/n
, и так далее: итерация i
использует i*p/n
, пока мы не достигнем номинальной скорости на итерации n
.
Это означает, что первая итерация получает только 1 / n отэффект первичности.Это делает разумную работу по балансировке этого влияния.
Обратите внимание, что увеличение обычно имеет порядок одной эпохи - но иногда оно больше для особенно искаженных данных или короче для более однородных распределений.Вы можете изменить настройки в зависимости от того, насколько функциональными могут быть ваши партии при применении алгоритма тасования к тренировочному набору.