Служение Tensorflow с XLA - PullRequest
       43

Служение Tensorflow с XLA

0 голосов
/ 13 февраля 2019

Можно ли включить компиляцию XLA при выполнении вывода с помощью Tensorflow Serving?

(я надеюсь, что это всего лишь вопрос недокументированных конфигов и что я могу избежать реализации настраиваемого Servable).

1 Ответ

0 голосов
/ 17 апреля 2019

@ njs,

На самом деле не рекомендуется делать компиляции во время вывода.Компиляции во время вывода приведут к тому, что HBM не хватит памяти, в результате чего чипы не смогут обслуживать запросы.

Рекомендуемое решение:

  1. Использовать пакетныйфункция с разрешенными размерами партий для ограничения количества компиляций во время выполнения.

  2. Все компиляции для этих разрешенных размеров партий выполняются во время загрузки модели вместо времени вывода.Таким образом, ваша модель готова к выводу сразу после загрузки, а не к компиляции с высокой задержкой во время вывода.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...