Ну, вы тестировали код.Но почему бы не попробовать выполнить умножение так же, как DGEMM?
Вы уже заявили, что DGEMM выполняет альфа * A * B + бета * C, так почему бы не попробовать написать это тоже и посмотреть, как оно сравниваетсяс DGEMM.
Вы, вероятно, обнаружите, что это так же быстро (или медленнее), чем DGEMM.Вы делаете намного меньше операций, что, скорее всего, является причиной того, что это быстрее.