CUDA_ERROR_OUT_OF_MEMORY только на этапе оценки - PullRequest
0 голосов
/ 08 мая 2019

Я использую тензорные потоки tf.train_and_evaluate вместе с облачной системой Ai Job от Google для обучения tf.estimator.Estimator модели.

В последнее время, когда я иду на тренировку своей модели, я получаю ошибку CUDA_ERROR_OUT_OF_MEMORY во время тренировки, но я заметил, что это происходит только во время фазы evaluation. То есть Я могу запустить тренировку на произвольное количество шагов, но как только фаза тренировки закончится, я вижу ошибку.

Я скопировал и вставил точные ошибки (их несколько подряд) ниже:

failed to alloc 8589934592 bytes on host: CUDA_ERROR_OUT_OF_MEMORY:
out of memory
could not allocate pinned host memory of size: 8589934592    
failed to alloc 7730940928 bytes on host: CUDA_ERROR_OUT_OF_MEMORY:    
out of memory could not allocate pinned host memory of size:
7730940928 failed to alloc 6957846528 bytes on host:
CUDA_ERROR_OUT_OF_MEMORY: out of memory could not allocate pinned host
memory of size: 6957846528 failed to alloc 6262061568 bytes on host:
CUDA_ERROR_INVALID_VALUE: invalid argument could not allocate pinned
host memory of size: 6262061568 failed to alloc 5635855360 bytes on
host: CUDA_ERROR_INVALID_VALUE: invalid argument could not allocate
pinned host memory of size: 5635855360
...