Question

Можно ли включить компиляцию XLA при выполнении вывода с помощью Tensorflow Serving?

(я надеюсь, что это всего лишь вопрос недокументированных конфигов и что я могу избежать реализации настраиваемого Servable).

RakTheGeek · Answer 1 · 17 апреля 2019

@ njs,

На самом деле не рекомендуется делать компиляции во время вывода.Компиляции во время вывода приведут к тому, что HBM не хватит памяти, в результате чего чипы не смогут обслуживать запросы.

Рекомендуемое решение:

Использовать пакетныйфункция с разрешенными размерами партий для ограничения количества компиляций во время выполнения.
Все компиляции для этих разрешенных размеров партий выполняются во время загрузки модели вместо времени вывода.Таким образом, ваша модель готова к выводу сразу после загрузки, а не к компиляции с высокой задержкой во время вывода.

Служение Tensorflow с XLA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Служение Tensorflow с XLA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы