Можно ли включить компиляцию XLA при выполнении вывода с помощью Tensorflow Serving?
(я надеюсь, что это всего лишь вопрос недокументированных конфигов и что я могу избежать реализации настраиваемого Servable).
@ njs,
На самом деле не рекомендуется делать компиляции во время вывода.Компиляции во время вывода приведут к тому, что HBM не хватит памяти, в результате чего чипы не смогут обслуживать запросы.
Рекомендуемое решение:
Использовать пакетныйфункция с разрешенными размерами партий для ограничения количества компиляций во время выполнения.
Все компиляции для этих разрешенных размеров партий выполняются во время загрузки модели вместо времени вывода.Таким образом, ваша модель готова к выводу сразу после загрузки, а не к компиляции с высокой задержкой во время вывода.