Если вы в первую очередь делаете вывод с помощью графического процессора, а не с высокой рабочей нагрузкой на процессор, каковы некоторые эталонные архитектуры или подходы для решения этой ситуации. Я особенно заинтересован в том, чтобы использовать тензорный поток, обслуживающий большие модели глубокого обучения на графическом процессоре, и горизонтальное масштабирование в случае повышенного спроса с увеличением задержки вывода. Я бы предпочел некоторые универсальные c решения с использованием балансировщиков нагрузки.