Итак, вы имеете в виду два режима обучения градиентному спуску. В пакетном режиме изменения в весовой матрице накапливаются в течение всего представления набора тренировочных данных (одна «эпоха»); онлайн-тренинг обновляет вес после представления каждого вектора, составляющего тренировочный набор.
Я считаю, что консенсус заключается в том, что онлайн-обучение лучше, потому что оно сходится гораздо быстрее (большинство исследований не показывают явных различий в точности). (См., Например, Randall Wilson & Tony Martinez, Общая неэффективность пакетного обучения для обучения по градиентному спуску , В Нейронные сети (2003).
Причина, по которой онлайн-обучение сходится быстрее, заключается в том, что он может следовать кривым на поверхности ошибок в течение каждой эпохи. Практическая значимость этого заключается в том, что вы можете использовать более высокую скорость обучения (и, следовательно, сходиться с меньшим количеством циклов в данных обучения).
Другими словами, накопленное изменение веса для группового обучения увеличивается с увеличением размера тренировочного набора. В результате пакетное обучение использует большие шаги на каждой итерации и поэтому пропускает локальные минимумы в топологии пространства ошибок - ваш решатель колеблется, а не сходится.
Пакетное обучение обычно используется по умолчанию (чаще всего используется в учебниках по ОД и т. Д.), И в этом нет ничего плохого, если оно сходится в приемлемых для вас временных рамках. Опять же, разница в производительности (разрешающей способности или точности классификации) мала или незначительна.