Развертывание многомодельного Chatbot с помощью веб-приложения Flask - PullRequest
0 голосов
/ 21 июня 2019

Я разработал чат-бота .. И я создал модель и предсказание бот-чата в виде веб-приложения Flask и разместил его на сервере Ec2, докеризировав его с помощью nginx и wsgi.

Сервер флеш-памяти предоставляет API для отдыха ... и я создал пользовательский интерфейс для обучения и общения с ботом, используя этот API для отдыха в моем интерфейсе html и ajax сетевых вызовов

У меня есть вариант использования Где ppl может зайти в мое веб-приложение и обучить там свою модель, создать чат-бота и пообщаться с ним ... Так же, как Dialogflow .. В настоящее время для разных пользователей будут создаваться разные модели, и я храню модель на сервере Digital Ocean Tomcat. Всякий раз, когда пользователь хочет пообщаться в чате ... Загружаю модель конкретного пользователя с сервера Digital Ocean и использую ее для прогноза.

Так будет N Количество моделей для разных чат-ботов Что происходит ... когда мы хотим поболтать, чтобы загрузить модель, это занимает много времени Если бы это была одна модель, я бы по умолчанию загрузил модель на сервер чата. Но так как это несколько моделей для разных ботов .. загрузка модели занимает время

Я предложил вариант хранения моделей в кеше redis и загрузки его при прогнозировании. Сохранение ttl для кеша redis в течение 7 минут для каждой модели при первой загрузке

Как бы то ни было, redis уменьшил время отклика до 2000 миллисекунд, но его не достаточно

Мне нужно время отклика ниже 1000 миллисекунд,

Пожалуйста, вы можете предложить мне. Как загрузить несколько моделей в производство и наилучшим образом обслуживать классификацию.

Спасибо.

Наилучшая практика развертывания многомодельной модели Deep Learning в производство. Время отклика должно быть меньше, чем ниже 100 мс

...