Получено исключение NotFoundError: libnccl.so.2 при использовании multi-gpu в тензорном потоке - PullRequest
0 голосов
/ 26 февраля 2019

Когда я запускаю следующий код для использования опции multi gpu:

distribution = tf.contrib.distribute.MirroredStrategy()

run_config = tf.estimator.RunConfig(train_distribute=distribution)

estimator = tf.keras.estimator.model_to_estimator(model, config=run_config)

estimator.train(lambda: input_fn(train_images,
                                 train_labels,
                                 epochs=EPOCHS,
                                 batch_size=BATCH_SIZE))

, но я получаю следующую ошибку:

tensorflow.python.framework.errors_impl.NotFoundError: libnccl.so.2: cannot open shared object file: No such file or directory

Я установил tenorflow-gpu иперешел по следующей ссылке:

https://medium.com/tensorflow/multi-gpu-training-with-estimators-tf-keras-and-tf-data-ba584c3134db

Что мне здесь не хватает?

...