Запуск модели глубокого обучения с использованием Kubernetes - PullRequest
0 голосов
/ 27 февраля 2019

Я нахожусь в стадии развертывания модели глубокого обучения с использованием Kubernetes.У меня следующие вопросы:

1: поддерживает ли kubernetes параллельную обработку?После предварительной обработки данных необходимо запустить модель глубокого обучения с различным набором гиперпараметров.Можно ли запустить его параллельно на разных модулях и для чего нужен код python ??

Если какой-либо модуль выходит из строя или выходит из строя во время работы, он позволит автоматически запускать другой модуль (копию исходного модуля)?

Кроме того, если конкретный модульдостигает определенного процента от GPU (порога), это заставит другой модуль работать автоматически ?.

Мне нужна ваша помощь по этому вопросу.Я нахожу много учебника по этому вопросу.Кроме того, ищите код Python для выполнения всех этих действий.

Спасибо

1 Ответ

0 голосов
/ 28 февраля 2019

Похоже, что по этому вопросу не проводилось никаких предварительных исследований, и вы не являетесь новым участником. Поэтому в будущем, пожалуйста, попробуйте задать конкретные вопросы о том, с какими проблемами вы столкнулись, поскольку это показывает, что вы приложили усилия до этого.задавать вопросЯ постараюсь ответить с точки зрения Kubernetes, поскольку у меня еще не было возможности использовать глубокое изучение Kubernetes.

  1. Kubernetes поддерживает параллельную обработку.Кластер представляет собой набор «независимых» узлов, каждый из которых имеет собственную память и ЦП, но они связаны через сеть и могут использоваться вместе для решения общей задачи.Вы можете иметь несколько модулей / заданий, выполняющих то, что вам нужно.Подробнее об этом в контексте ML здесь и примера глубокого обучения по Куберне здесь .

  2. Pod asБазовый строительный блок в Kubernetes - это также представление запущенного процесса в вашем кластере.Это то, что мы могли бы назвать скотом.Мы считаем их эфемерными сущностями, которые могут быть заменены или отброшены по желанию.Обычная практика заключается в том, чтобы создавать не сам Pod, а, например, Deployments, который гарантирует, что у вас всегда будет указанное количество работающих Pod (когда один умирает, на его месте создается другой, чтобы сохранить указанное количество).Подробнее о контроллерах можно узнать здесь :

Они могут отвечать за репликацию и развертывание, а также обеспечивать возможности самовосстановления в области кластера.

Не уверен насчет GPU, так как я не использовал его слишком часто, но Kubernetes определенно может масштабироваться на основе CPU и памяти, вы также можете установить Resources и Limits для управления этим.Я полагаю, что Cluster Autoscaler может масштабироваться на основе GPU, поскольку для GPU есть специальный показатель:

Минимальное и максимальное количество различных графических процессоров в кластере в формате ::.Cluster autoscaler не будет масштабировать кластер выше этих чисел.Может быть передано несколько раз.В настоящее время этот флаг работает только на GKE.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...