Пример реализации TensorRT / TFlite - PullRequest
0 голосов
/ 06 июля 2019

Имея обученный файл модели Keras '.h5', я пытаюсь оптимизировать время вывода:

Изучено 2 варианта:

  1. Ускоренный вывод через TensorRT
  2. 'int8' Квантизация.

На данный момент я могу преобразовать файл модели в формат protobuf TensorFlow '.pb', но в качестве идентификатора он также содержит пользовательские объекты из нескольких слоев.

Видел несколько статей о преобразовании TensorRT и преобразовании TFLite, но я не нашел надежной реализации, которая была бы разборчивой.Может кто-нибудь объяснить, как это делается (TFLite / Keras Quantification или TensorRT), чтобы использовать ту же модель для более быстрого вывода.

(Откройте для других предложений по улучшению скорости вывода, поддерживаемой в TensorFlow и Keras)

1 Ответ

0 голосов
/ 07 июля 2019

Это руководство пользователя по использованию TensorRT в TF: https://docs.nvidia.com/deeplearning/frameworks/tf-trt-user-guide/index.html

Этот доклад объясняет, как TensorRT работает в TF: https://developer.nvidia.com/gtc/2019/video/S9431

Обратите внимание, что TensorRT также поддерживает INT8-квантование (во время обучения или после обучения).

Этот пост также имеет вид такого же содержания: https://medium.com/tensorflow/high-performance-inference-with-tensorrt-integration-c4d78795fbfe

В этом хранилище есть несколько примеров, показывающих, как его использовать: https://github.com/tensorflow/tensorrt

...