Я пытаюсь обучить свою модель (которая не построена с помощью tf.estimator или tf.keras), используя распределенное обучение в ML Engine.
Какие шаги я должен предпринять, чтобы запустить распределенное учебное задание в ML Engine?
Я нашел следующие рекомендации:
Так что, если ранее предоставлено вкомандная строка означает, что мне не нужно ничего делать с последним, потому что ML Engine каким-то образом заботится о распределении моего графика по устройствам?Или мне нужно сделать и то и другое?
А также, что произойдет, если я вручную укажу устройства, используя:
with tf.device('/gpu:0/1/2/etc')
.., а затем запусту команду с --scale-tier
?