Насколько я тестировал, существенной разницы не было (возможно, крошечные накладные расходы для Keras).
Лучшее ожидаемое время вывода не будет получено при переключении с кераса на тензорный поток. Я работал с TensorRT, и большинство проблем связано с тем, что не все слои поддерживаются (для преобразования / оптимизации).
Убедитесь, что все, что для всего конвейера Keras Model - TensorFlow Model - Layer Optimization - TensorRT выполняется с той же версией tenorflow. Я бы рекомендовал тренировать модель через tensorflow.keras
вместо простого keras
.
Кроме того, убедитесь, что вы конвертируете с правильными операциями FP. (FP32 / FP16 / INT8). Наибольший выигрыш в скорости логического вывода был бы, если бы вы преобразовали стандарт (FP32) в INT8. По моему опыту, преобразование из FP32 в FP16 значительно не ускорится.
Семантическая сегментация является наиболее дорогой вычислительной задачей, поэтому не ожидайте, что, например, на TX2 будет развернута очень быстрая модель логического вывода (с TensorRT).