Временная шкала Horovod и трассировка MPI в рабочей области Azure машинного обучения (конфигурация MPI) - PullRequest
0 голосов
/ 10 апреля 2020

Все,
Я пытаюсь обучить распределенную модель, используя Horovod на Azure Служба машинного обучения, как показано ниже.

estimator = TensorFlow(source_directory=script_folder,
                       entry_script='train_script.py',
                       script_params=script_params,
                       compute_target=compute_target_gpu_4,
                       conda_packages=['scikit-learn'],                       
                       node_count=2,                        
                       distributed_training=MpiConfiguration(),
                       framework_version = '1.13',
                       use_gpu=True
                      )
run = exp.submit(estimator)
  • Как включить временную шкалу Horovod?
  • Как включить более детальную трассировку MPI для просмотра связи между узлами?

Спасибо.

1 Ответ

0 голосов
/ 05 мая 2020

Далее в классе SDK используется класс Tensorflow Estimator, для которого параметру распределенная_тренировка установлена ​​в Mpi ().

enter image description here

https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/ml-frameworks/tensorflow/training/distributed-tensorflow-with-horovod/distributed-tensorflow-with-horovod.ipynb

Еще один пример использования Horovod для обучения модели сходства предложений генизма. https://github.com/microsoft/nlp-recipes/blob/46c0658b79208763e97ae3171e9728560fe37171/examples/sentence_similarity/gensen_train.py

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...