Я пытался использовать квантование для ускорения вывода на моей модели.Это многопотоковая модель, которая интенсивно использует трехмерные свертки.
Следующие вещи не работают по разным причинам:
Установка K.set_floatx('float16')
в Керасе;нет поддержки слоя Conv3D
с бэкэндом TensorFlow.
Не поддерживается способ выполнить квантование после обучения в TensorFlow, рекомендуется делать это с помощью TensorFlow Lite.
TensorFlow Lite не может оптимизировать Conv3D
-оп, конечно.
Самый многообещающий метод: TensorRT также дает сбой.Если вы внимательно присмотритесь к документации, станет ясно, что нет встроенной поддержки 3D-сверток.
Даже если бы мне удалось выполнить одну из первых трех, скорее всего,не будет иметь большого значения, так как простое использование float16
не обязательно означает, что Tesla T4 может эффективно использовать их на своих тензорных ядрах.Кажется, единственный способ добиться ускорения, объявленного NVIDIA, - это использовать TensorRT.
Есть ли способ для моделей Conv3D добиться значительного ускорения с помощью тензорных ядер Telsa T4 в режиме FP16?