Я пытаюсь запустить две модели в разных процессах одновременно.Компьютер зависает тогда CudNN Сбои для одного из процессов? - PullRequest
0 голосов
/ 22 марта 2019

Я уже некоторое время замечал то, что описано в названии, но только недавно получил 2-й графический процессор, чтобы попытаться запустить модели одновременно, и у меня возникла та же проблема. Вот фрагмент кода:

with tf.device('/GPU:1'):

self.model = LookaheadGAN(rdata.shape[2], hdata.shape[2])



i = 0

config = tf.ConfigProto()

config.allow_soft_placement = True

saver = tf.train.Saver()



with tf.device('/GPU:1'):

with tf.Session(config=config) as session:

init = tf.initialize_all_variables()

session.run(init)

while i < 3000000:

rdata, hdata, target = self.data.get_train_batch(batch_size)

_, gl, rms = session.run([self.model.gen_step, self.model.gen_loss, self.model.rms_debug]...

Если я поменяю оба выражения на GPU: 0 и одновременно запустю другой процесс, он остановится на минуту и ​​выдаст ошибку, подобную следующей:

UnknownError (see above for traceback): Fail to find the dnn implementation.

[[node cudnn_lstm_2/cudnn_lstm_2/CudnnRNNCanonicalToParams (defined at C:\Users\msfti\source\repos\MLHelpers\MLHelpers\Lookahead\LookaheadGAN.py:83) ]]

[[node cudnn_lstm/cudnn_lstm/CudnnRNNCanonicalToParams (defined at C:\Users\msfti\source\repos\MLHelpers\MLHelpers\Lookahead\LookaheadGAN.py:63) ]]

Кто-нибудь сталкивался с чем-нибудь подобным? Спасибо

...