Допустим, у меня есть нейронная сеть с именем 'NN' с 500 весами и уклонами (общие параметры = 500).
Для одного обучающего образца: он вводится через 'NN', он выплевывает вывод (Out1), результат сравнивается с меткой обучения, и с алгоритмом обратного распространения есть небольшое изменение (положительное или отрицательное) в каждом параметре 'NN'. Функция стоимости представлена вектором размеров 1x500 со всеми небольшими изменениями, полученными с помощью алгоритма обратного распространения.
Допустим, mini_batch_size = 10
Для одной мини-партии: каждая и каждая из 10 обучающих образцов обеспечивают функцию стоимости измерений 1x500.
Чтобы лучше визуализировать и объяснить, допустим, что мы создаем матрицу 10х500 (называемую М), где каждая строка является функцией стоимости каждой обучающей выборки.
Вопрос: Для Пример обучения мини-партии. Является ли функция окончательной стоимости мини-партии результатом усреднения всех элементов столбца?
PD. В случае, если вопрос недостаточно ясен, я оставил некоторый код, который я имею в виду.
for j=1:500
Cost_mini_batch(j)=sum(M(:,j))/10
end
Размеры Cost_mini_batch - 1x500.