Мне нужно получить максимально быструю операцию матмуля в TF для случая, когда одна из матриц имеет нижнюю треугольную форму. CuBLAS и BLAS имеют функции trmm
, но, похоже, TensorFlow от этого не выигрывает.
Я проверил реализацию LinearOperators для случая LowerTriangular. Но не ясно, использует ли он реализацию BLAS или нет.
Кто-нибудь может подтвердить, что наиболее оптимизированная версия реализована LinearOperators?
Спасибо!