Я уже некоторое время замечал то, что описано в названии, но только недавно получил 2-й графический процессор, чтобы попытаться запустить модели одновременно, и у меня возникла та же проблема. Вот фрагмент кода:
with tf.device('/GPU:1'):
self.model = LookaheadGAN(rdata.shape[2], hdata.shape[2])
i = 0
config = tf.ConfigProto()
config.allow_soft_placement = True
saver = tf.train.Saver()
with tf.device('/GPU:1'):
with tf.Session(config=config) as session:
init = tf.initialize_all_variables()
session.run(init)
while i < 3000000:
rdata, hdata, target = self.data.get_train_batch(batch_size)
_, gl, rms = session.run([self.model.gen_step, self.model.gen_loss, self.model.rms_debug]...
Если я поменяю оба выражения на GPU: 0 и одновременно запустю другой процесс, он остановится на минуту и выдаст ошибку, подобную следующей:
UnknownError (see above for traceback): Fail to find the dnn implementation.
[[node cudnn_lstm_2/cudnn_lstm_2/CudnnRNNCanonicalToParams (defined at C:\Users\msfti\source\repos\MLHelpers\MLHelpers\Lookahead\LookaheadGAN.py:83) ]]
[[node cudnn_lstm/cudnn_lstm/CudnnRNNCanonicalToParams (defined at C:\Users\msfti\source\repos\MLHelpers\MLHelpers\Lookahead\LookaheadGAN.py:63) ]]
Кто-нибудь сталкивался с чем-нибудь подобным? Спасибо