Все,
Я пытаюсь обучить распределенную модель, используя Horovod на Azure Служба машинного обучения, как показано ниже.
estimator = TensorFlow(source_directory=script_folder,
entry_script='train_script.py',
script_params=script_params,
compute_target=compute_target_gpu_4,
conda_packages=['scikit-learn'],
node_count=2,
distributed_training=MpiConfiguration(),
framework_version = '1.13',
use_gpu=True
)
run = exp.submit(estimator)
- Как включить временную шкалу Horovod?
- Как включить более детальную трассировку MPI для просмотра связи между узлами?
Спасибо.