Согласно недавно опубликованному техническому документу и RFC на GitHub, tenorflow eager в настоящее время поддерживает распределенное выполнение.Упоминается, что аналогично графическому режиму мы можем активно запускать операцию на удаленном устройстве, указав имя устройства, например, «/ job: training / task: 2 / device: GPU: 0».Тем не менее, я не могу найти примеры кода или учебные пособия о том, как это сделать.
Я отмечаю, что существует множество учебных пособий по tf.distribute , высокоуровневому API дляраспределенное обучение, которое поддерживает как график, так и активный режим.Однако меня больше интересует, как работает tf.distribute под капотом для активного режима.В частности, я хотел бы знать:
Как подключить клиента к удаленному серверу в режиме готовности?
Когда и какопределение кластера указано в режиме готовности?
Буду признателен, если кто-нибудь сможет дать ответы на эти вопросы.Спасибо!