инструкции wmma могут использовать только (т.е. выполнять на) аппаратное обеспечение Tensor Core.Они не могут выполняться на любом другом типе оборудования.По этой причине при компиляции кода устройства CUDA с инструкциями wmma необходимо ориентироваться на архитектуру (cc7.x, в настоящее время) с аппаратным обеспечением Tensor Core.Более того, такой код будет корректно работать только на устройстве cc7.x (в настоящее время).
Переменные CUBLAS, на которые вы ссылаетесь, влияют на использование API CUBLAS.Они не связаны с инструкциями wmma, которые вы сами кодируете.
Под капотом у библиотеки CUBLAS есть несколько путей кода.Переменные CUBLAS, на которые вы ссылаетесь, могут влиять на решения пути кода, которые может принимать библиотека CUBLAS.Некоторые из этих путей кода могут использовать инструкции wmma или эквивалентное использование Tensor Core.Другие пути кода могут выполнять ту же операцию (на высоком уровне, например, умножение матрицы на матрицу) без использования инструкций wmma.