По данным nvidia .cublasZgemm в 6 раз быстрее Intel MKL.
Однако на моем ПК (i7 2600, Nvidia gtx560, OS: linux 64bit) cublasZgemm немного медленнее, чем MKL.
Я использую numpy.dot (), поставляемая с enthought python дистрибутивом , который связывает numy с MKL 10.3.
Функция умножения матриц с использованием cublasZgemm компилируется в разделяемой библиотеке и вызывается с использованием ctypes в скрипте python.
При умножении двух комплексных матриц 1024x1024.numpy.dot () занял 84мс.Вызов функции ctypes потратил 110 мс, в то время как функция cublasZgemm () заняла 97 мс.
Интересно, почему cublassZgemm не так быстр, как указано в nvidia?