У меня есть многозадачная сеть с 3 классификационными головками [A, B, C]
.Я хочу использовать выходные данные head A
в качестве входных данных для первых плотных слоев B and C
.
Должно ли быть сделано что-то особенное для обратного распространения, так как я считаю, что градиенты из B and C
не должны течьвернуться к A
, как это уже было рассчитано и должно рассматриваться как константа.
У кого-нибудь есть пример кода для чего-то подобного?