Имея обученный файл модели Keras '.h5', я пытаюсь оптимизировать время вывода:
Изучено 2 варианта:
- Ускоренный вывод через TensorRT
- 'int8' Квантизация.
На данный момент я могу преобразовать файл модели в формат protobuf TensorFlow '.pb', но в качестве идентификатора он также содержит пользовательские объекты из нескольких слоев.
Видел несколько статей о преобразовании TensorRT и преобразовании TFLite, но я не нашел надежной реализации, которая была бы разборчивой.Может кто-нибудь объяснить, как это делается (TFLite / Keras Quantification или TensorRT), чтобы использовать ту же модель для более быстрого вывода.
(Откройте для других предложений по улучшению скорости вывода, поддерживаемой в TensorFlow и Keras)