Я немного растерялся, изучая функции потерь для многозадачного обучения.
Например, в бинарной классификации только с одной задачей, например, классифицировать электронные письма как спам или нет, сумма вероятностей для каждой метки (спам / не спам) будет равна 1 с использованием активации softmax + softmax_crossentropy функция потери. Как это относится к многозадачному обучению?
Давайте рассмотрим случай с 5 задачами, каждая из которых представляет собой двоичную задачу. Применяется ли функция softmax к каждой задаче независимо (например, для задачи 1: вероятность метки 1 = 0,7 и метки 2 = 0,3; для задачи 2: вероятность метки 1 = 0,2 и метки 2 = 0,8 и т. Д.) Или она учитывает задачи вместе (например, если метка 1 задачи 1 имеет вероятность 0,80, все остальные метки всех других задач составят 0,20)?