Я не уверен, что есть один однозначный ответ на этот вопрос, но мне повезло, что я развернул модели в масштабе, связывая код предварительной и последующей обработки данных в довольно ванильные приложения Go или Python (например, Flask)которые подключены к моему постоянному хранилищу для других операций.
Например, чтобы взять пример рекомендации фильма, на прогнозируемом маршруте довольно эффективно вытащить 100 фильмов, которые пользователь просмотрел, из базы данных, сбросить их вмассив NumPy соответствующего размера и кодировки, отправьте его в обслуживающий контейнер TensorFlow, а затем выполните минимальную последующую обработку (например, извлеките имя фильма, описание, приведенное из другой части уровня постоянного хранения) перед возвратом.