У меня возникают проблемы с поиском в документации конкретной информации о том, как модели сохраняются и загружаются в TensorFlow Serving, и о возможных различиях при работе на ЦП и ГП.
Для обслуживания нескольких моделей (и одной или нескольких версий).каждого) один общий рабочий процесс:
- Модели поездов
- Сохранение замороженных моделей ( tf.saved_model.simple_save )
- Создает каталогструктура, содержащая
- save_model.pb
- переменные / variables.data
- переменные / variables.index
- Указывать на модели и версиив config.conf
В настоящее время я выполняю логический вывод на ЦП и загружаю сразу несколько моделей, которые потребляют оперативную память гораздо быстрее, чем ожидалось.Сохраненная модель относительно мала на диске, но когда TF Serving загружает модель в память, она увеличивается почти на порядок.Одна 200 МБ сохраненная_модель на диске превращается в 1,5 ГБ в ОЗУ, что значительно ограничивает количество моделей, которые можно загрузить.
Вопросы:
- Ожидается ли такое поведение (увеличение объема памяти в ОЗУ)?
- Есть ли разница в том, как TF Serving использует память на процессоре по сравнению с графическим процессором?
- Сможем ли мы загрузить больше моделей, сделав вывод на графическом процессоре?
Слабосвязанные результаты поиска: