Поскольку единичный пакетный размер подразумевает обновление весов после последовательности, размер пакета 32 будет означать обновление весов после этих 32 последовательностей.
Таким образом, весы обновляются только после этого фрагмента из 32 последовательностей со средними потерями по всем этим, так как в противном случае, если потеря будет обновлена для каждого из них сама по себе, она фактически представит обычный SGD с batch_size = 1.