У меня есть кусок кода, чтобы выполнить поэлементное умножение матриц на комплексные числа. Эта часть будет выполняться как 1 миллион раз во время расчета. Согласно тесту производительности, эта часть занимает около 35 ~ 40% от общего времени. Надеюсь, что есть какое-то предположение, что я могу добиться лучшей производительности. Спасибо.
Теоретически, метод, основанный на BLAS, может быть использован для повышения производительности. Но я попытался запустить код с разным количеством потоков. Не работает Эта часть все еще заняла то же самое время.
Код выглядит так:
( const_a * np.conj(a) * b
- const_b * np.conj(b) * b
+ const_c * np.conj(c) * c
... )