Не вижу никаких переводов на NVLINK с тестом NCCL all_sum - PullRequest
0 голосов
/ 28 ноября 2018

С помощью следующего кода (использует tensorflow.contrib.nccl.all_sum) я ожидал увидеть передачу байтов через NVLINK.На самом деле, нет.

from tensorflow.contrib.nccl import all_sum 

with tf.device('/gpu:0'):
        a = tf.get_variable(
            "a", initializer=tf.constant(1.0, shape=(args.dim, args.dim)))

with tf.device('/gpu:1'):
        b = tf.get_variable(
            "b", initializer=tf.constant(2.0, shape=(args.dim, args.dim)))

with tf.device('/gpu:0'):
        summed_node = all_sum([a, b])
         sess = tf.Session(config=tf.ConfigProto(allow_soft_placement=True,
                                            log_device_placement=True))

init = tf.global_variables_initializer() 
sess.run(init)

with tf.device('/gpu:0'):
        summed = sess.run(summed_node)

Моя машина является экземпляром AWS p3.8xlarge.Насколько я понимаю, эта конфигурация поддерживает NVLINK.

Выполнение в порядке, но когда я использую nvidia-smi nvlink -g 0 -i 0, количество ссылок Tx / Rx равно нулю.

...