для быстрого вывода CPU из замороженного графа Tensorflow (.pb) я в настоящее время использую C API Tensorflow. Скорость вывода уже довольно хорошая, однако (по сравнению со специфичными для процессора инструментами, такими как Intel OpenVINO), у меня пока нет возможности каким-либо образом оптимизировать график перед его запуском. Я заинтересован в любой подходящей оптимизации:
- специфичная для устройства оптимизация под CPU
- специфичная для графа оптимизация (операции слияния, удаления узлов, ...)
- ... и все остальное, уменьшая время, необходимое для вывода.
Поэтому я ищу способ оптимизировать графики после тренировки и перед выполнением. Как уже упоминалось, такие инструменты, как Intel OpenVINO (для процессоров) и NVIDIA TensorRT (для графических процессоров) делают подобные вещи. Я также работаю с OpenVINO, но в настоящее время жду исправления ошибки, поэтому я хотел бы попробовать еще один способ.
Я думал о том, чтобы попробовать Tensorflow XLA, но у меня нет опыта его использования. Более того, я должен убедиться, что в конце я получу либо замороженный граф (.pb), либо что-то, что можно преобразовать в замороженный граф (например, .h5).
Буду признателен за рекомендации!
Greets