.... Не нашел как использовать тензорные ядра. Можно ли это сделать с помощью Numba?
Нет. В настоящее время Numba не имеет поддержки половинной точности или встроенных функций тензорного ядра c, доступных в коде устройства.
Если нет, что мне следует использовать?
Я думаю вам придется писать код ядра на собственном диалекте C ++, а затем использовать что-то вроде PyCUDA для запуска кода устройства, скомпилированного на этом диалекте C ++.