Я нашел ответ здесь: Эффективный прямой проход в nn.Linear # 2159
Кажется, что за этим нет никаких реальных рассуждений.Однако операция транспонирования, похоже, не замедляет вычисления.
В соответствии с вышеупомянутой проблемой, во время пересылки , операция транспонирования является (почти) бесплатной с точки зрения вычислений.В то время как во время обратного прохода пропуск операции транспонирования фактически сделает вычисления менее эффективными с текущей реализацией.
Последний пост в этом выпуске довольно хорошо подводит итог:
Это историческое распределение веса, изменение которого обратно несовместимо.Если нет какой-либо БОЛЬШОЙ выгоды с точки зрения скорости или удобства, мы не будем нарушать пользовательское пространство.
https://github.com/pytorch/pytorch/issues/2159#issuecomment-390068272