В разделе 4.4 статьи «Практическая байесовская оптимизация алгоритмов машинного обучения» (https://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf) они исследуют следующие 9 гиперпараметров при оптимизации CNN:
Параметры, которые мы explore включают количество эпох для запуска модели, скорость обучения, четыре стоимости веса (по одному для каждого уровня и выходные веса softmax), а также ширину, масштаб и мощность нормализации отклика на объединяющих уровнях сети.
Что подразумевается под весовой стоимостью? Означают ли они термин регуляризации?