GCMLE NotFoundError: libnccl.so.2: не удается открыть общий объектный файл - PullRequest
0 голосов
/ 23 октября 2018

Я запускаю эксперимент GCMLE, где пытаюсь использовать MirroredStrategy для запуска распределенных графических процессоров.Код работает нормально без распределенных графических процессоров, и для внесения изменений я настроил свой run_config так, чтобы он принимал train_distribute=tf.contrib.distribute.MirroredStrategy(num_gpus=4), а мой конфигурационный файл для использования компьютера complex_model_m_p100, который должен иметь 4 графических процессора.Я получаю предупреждение Error reported to Coordinator: libnccl.so.2: cannot open shared object file: No such file or directory, а затем, в конечном итоге, с ошибкой задания получаем NotFoundError: libnccl.so.2: cannot open shared object file: No such file or directory (см. Полный след стека ниже).На первый взгляд это похоже на внутреннюю ошибку, когда на компьютерах, которые я пытаюсь использовать, не установлены надлежащие библиотеки.Ответчик на эту проблему github , похоже, предполагает, что необходимо установить «NCCL2».Могу ли я что-нибудь сделать, чтобы обойти эту ошибку, или это проблема с бэкэндом GCMLE, которая находится вне моего контроля?

Stacktrace:

The replica master 0 exited with a non-zero status of 1. 
Traceback (most recent call last):
  [...]
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/distribute/python/mirrored_strategy.py", line 368, in _batch_reduce
    value_destination_pairs)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/distribute/python/cross_tower_ops.py", line 182, in batch_reduce
    return self._batch_reduce(aggregation, value_destination_pairs)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/distribute/python/cross_tower_ops.py", line 524, in _batch_reduce
    [v[0] for v in value_destination_pairs])
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/distribute/python/cross_tower_ops.py", line 556, in _batch_all_reduce
    device_grad_packs)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/distribute/python/cross_tower_utils.py", line 38, in aggregate_gradients_using_nccl
    agg_grads = nccl.all_sum(single_grads)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/nccl/python/ops/nccl_ops.py", line 49, in all_sum
    return _apply_all_reduce('sum', tensors)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/nccl/python/ops/nccl_ops.py", line 217, in _apply_all_reduce
    _validate_and_load_nccl_so()
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/nccl/python/ops/nccl_ops.py", line 288, in _validate_and_load_nccl_so
    _maybe_load_nccl_ops_so()
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/nccl/python/ops/nccl_ops.py", line 274, in _maybe_load_nccl_ops_so
    resource_loader.get_path_to_datafile('_nccl_ops.so'))
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/util/loader.py", line 56, in load_op_library
    ret = load_library.load_op_library(path)
  File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/framework/load_library.py", line 56, in load_op_library
    lib_handle = py_tf.TF_LoadLibrary(library_filename)
NotFoundError: libnccl.so.2: cannot open shared object file: No such file or directory
...