Tensorflow 2.0 GPU Внутренняя память не работает - PullRequest
0 голосов
/ 15 апреля 2020

Я пытаюсь запустить свой сценарий python, используя графический процессор удаленного сервера, который используется другими пользователями.

Скрипт выбрасывает память из ошибки даже до того, как достигает раздела обучения модели.

Это ошибка, которую я получаю. Сервер имеет 3 графических процессора, однако я использую только один графический процессор, который не используется другими процессами. Поэтому я установил «CUDA_VISIBLE_DEVICES» на «0», графический процессор не используется.

Это ошибка, которую я получаю.

2020-04-15 15:22:01.870082: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1697] Adding visible gpu devices: 0
2020-04-15 15:22:01.870161: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library libcudart.so.10.1
2020-04-15 15:22:02.748227: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1096] Device interconnect StreamExecutor with strength 1 edge matrix:
2020-04-15 15:22:02.748273: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1102]      0 
2020-04-15 15:22:02.748283: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1115] 0:   N 
2020-04-15 15:22:02.749326: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1241] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 58 MB memory) -> physical GPU (device: 0, name: Tesla V100-PCIE-32GB, pci bus id: 0000:d8:00.0, compute capability: 7.0)

2020-04-15 15:22:02.768792: I tensorflow/core/common_runtime/eager/execute.cc:573] Executing op RandomUniform in device /job:localhost/replica:0/task:0/device:GPU:0
2020-04-15 15:22:03.335483: F ./tensorflow/core/kernels/random_op_gpu.h:232] Non-OK-status: GpuLaunchKernel(FillPhiloxRandomKernelLaunch<Distribution>, num_blocks, block_size, 0, d.stream(), gen, data, size, dist) status: Internal: out of memory
Aborted (core dumped)

Я не понимаю, почему у меня заканчивается ошибка. В этом графическом процессоре по крайней мере 16 ГБ ОЗУ, и модель еще даже не начала обучение.

Благодарим всех за помощь

...