BLAS не имеет встроенной процедуры транспонирования матрицы. CUDA SDK включает пример транспонирования матрицы с документом, в котором обсуждается оптимальная стратегия выполнения транспонирования. Ваша лучшая стратегия, вероятно, состоит в том, чтобы использовать основные входные данные строки в CUBLAS с входной версией вызовов транспонирования, затем выполнять промежуточные вычисления в главном столбце и, наконец, впоследствии выполнять операцию транспонирования с использованием ядра транспонирования SDK.
Отредактировано, чтобы добавить, что в CUBLAS добавлена подпрограмма транспонирования в CUBLAS версии 5, geam
, которая может выполнять преобразование матрицы в памяти графического процессора и должна рассматриваться как оптимальная для любой используемой вами архитектуры.