Простая программа распределенного обучения python для моделей глубокого обучения от Horovod на кластере GPU - PullRequest
2 голосов
/ 12 июля 2020

Я пытаюсь запустить пример python3 кода https://docs.databricks.com/applications/deep-learning/distributed-training/horovod-runner.html на кластере графических процессоров Databricks (с 1 драйвером и 2 рабочими). ​​

Среда Databricks:

 ML 6.6, scala 2.11, Spark 2.4.5, GPU 

Это для обучения распределенной модели глубокого обучения.

Сначала я попробовал очень простой пример:

 from sparkdl import HorovodRunner
 hr = HorovodRunner(np=2)

 def train():
   print('in train')
   import tensorflow as tf
   print('after import tf')
   hvd.init()
   print('done')

 hr.run(train)

Но команда всегда выполняется без какого-либо прогресса.

HorovodRunner will stream all training logs to notebook cell output. If there are too many 
logs, you
can adjust the log level in your train method. Or you can set driver_log_verbosity to
'log_callback_only' and use a HorovodRunner log  callback on the first worker to get concise
progress updates.
The global names read or written to by the pickled function are {'print', 'hvd'}.
The pickled object size is 1444 bytes.

### How to enable Horovod Timeline? ###
HorovodRunner has the ability to record the timeline of its activity with Horovod  Timeline. 
To
record a Horovod Timeline, set the `HOROVOD_TIMELINE` environment variable  to the location 
of the
timeline file to be created. You can then open the timeline file  using the chrome://tracing
facility of the Chrome browser.

Я что-то пропускаю или мне нужно что-то настроить, чтобы это работало?

Спасибо

...