У меня есть 2 графических процессора:
- Quadro K620, предназначенный для графических задач
- Tesla K40 c, предназначенный для нужд компьютера - вычисления.
Я запускаю блокнот jupyter на anaconda, чтобы выполнить обучение Vgg16 (или даже намного меньше) net.
Программа продолжает разрушаться, как будто недостаточно памяти.
Кажется, что создается некоторая путаница между графическими процессорами.
работает:
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())
Выходы:
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 8983326202371681375
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 11239342080
locality {
bus_id: 1
links {
}
}
incarnation: 16192653343740641175
physical_device_desc: "device: 0, name: Tesla K40c, pci bus id: 0000:02:00.0, compute capability: 3.5"
]
Когда процесс начинается, я получаю команду anaconda promt cmd:
2020-01-09 15:09:18.540910: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1433] Found device 0 with properties:
name: Tesla K40c major: 3 minor: 5 memoryClockRate(GHz): 0.745
pciBusID: 0000:02:00.0
totalMemory: 11.18GiB freeMemory: 11.07GiB
Но когда начинается тренировка, я вижу в подсказке анаконды:
Created TensorFlow device (/device:GPU:0 with 10718 MB memory) -> physical GPU (device: 0, name: Tesla K40c, pci bus id: 0000:02:00.0, compute capability: 3.5)
И тренировка не работает, обычно вылетает. Он используется для работы в проходе, поэтому я не думаю, что его проблема установки. Есть также вариант, что это началось после некоторого обновления окна, но не уверен.
Как я могу решить эту проблему?
Я также вижу предупреждение в приглашении anaconda:
Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX
Может ли это быть связано с проблемой?
Версия Cuda: (от: nv cc --version)
Copyright (c) 2005-2017 NVIDIA Corporation
Built on Fri_Nov__3_21:08:12_Central_Daylight_Time_2017
Cuda compilation tools, release 9.1, V9.1.85
В nvidia-smi Я получаю:
| NVIDIA-SMI 441.22 Driver Version: 441.22 CUDA Version: 10.2
Версия Tensorflow
1.13.1
Версия Keras
2.2.4
Python версия
3.6.8 |Anaconda, Inc.| (default, Feb 21 2019, 18:30:04) [MSC v.1916 64 bit (AMD64)]