Как развернуть N независимых обучающих заданий Python / PyTorch в N облачных экземплярах GPU? - PullRequest
0 голосов
/ 01 февраля 2019

У меня есть N независимых python tasks / scrips / functionCalls, которые я хотел бы отправить в N google cloud gpu instance, чтобы они могли работать параллельно, но там так много информации (шума), что я не знаюс чего начатьВ частности, мне нужно обучить N глубоких нейронных сетей в облаке, тестировать различные конфигурации гиперпараметров, используя PyTorch.Я не уверен, должен ли я использовать что-то вроде KubeFlow или ...?Примеры, которые я нашел для KubeFlow, больше похожи на то, что он предназначен для распределенного обучения / логического вывода в отдельных сетях, а не для независимого задания.

Я предполагаю, что мне нужно иметь док-образ, который описывает мою настройку, но кроме этого, яна самом деле не знаю, как это сделать.

Код psuedo ниже суммирует то, что я пытаюсь сделать.Я хотел бы отправить несколько независимых заданий нескольким независимым облачным экземплярам и получить данные, которые они производят.

Любая помощь будет принята с благодарностью!

for jobConfig in Configs:
    SubmitTrainingJob(MyFunction,args = jobConfig)
...