Пока меня не было на работе, у нас было отключение электричества.Когда я вернулся и снова включил свой компьютер, я продолжил работу с некоторыми из своих сценариев, чтобы обнаружить, что Tensorflow был сломан, проблема заключалась в том, что все файлы в / usr / local / cuda были удалены, поэтому мой первыйвопрос как это вообще возможно?
Я попытался переустановить cuda и столкнулся с проблемами загрузки, о которых я поделюсь ниже, поэтому вместо того, чтобы возиться, я подумал, что лучше всего просто переустановить xubuntuи начать все сначала, но в конечном итоге получил точно такой же груз проблем.У меня была следующая настройка:
os: xubuntu 18.04
gpu: 2 x 1080ti
cuda toolkit: 9.2
cudnn: 7.2.1
nccl: 2.2
tensorflow 1.10.1 (built from source) with python3
Это важно, потому что я знаю, что она работает, я уже несколько месяцев использую свою систему,
Начальная настройка
- Установите Xubuntu с USB-накопителя
sudo apt-get upgrade -y;
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update -y;
- Перейдите на
Additional Drivers
и выберите nvidia-драйвер-396 (с открытым исходным кодом) - Применить изменения
- Перезагрузить компьютер
sudo apt-get install freeglut3 freeglut3-dev libxi-dev libxmu-dev
sudo dpkg -i --force-overwrite cuda-repo-ubuntu1710-9-2-local_9.2.148-1_amd64.deb
sudo apt-key add /var/cuda-repo-9-2-local/7fa2af80.pub
sudo apt-get update -y;
Проблемы
Из набора инструментов nvidia cuda page , версия, которую я установил до этого, была 17.04, хотя моя Ubuntu 18.04и их шаг 4 заявил:
sudo apt-get install cuda
Это также установит проприетарный драйвер nvidia, который также можно установить, перейдя в Additional Drivers
после выполнения dpkg
наЗагрузите набор инструментов cuda на шаге 9 выше, который называется NVIDIA binary driver - version 396.37 from nvidia-396 (proprietary)
.Выполнение любого из этих действий прервется ...
Затем я наткнулся на эту ссылку , потому что у меня была следующая ошибка:
trying to overwrite '/usr/lib/x86_64-linux-gnu-libGLX_indirect.so.0' which is also in package libglx-mesa0:amd64 18.0.5-0ubuntu~18.04.1
Комментарии 6,7и 8 предложенных решений не сработали, предложение комментария 6 не могло быть реализовано, поскольку в моей системе такого файла не было, комментарии 7 и 8 привели к той же ошибке, что и выше ~.. indirect.so.0 ..
.
Произошло очень хорошееучебное пособие здесь , поэтому я установил пакеты на шаге 8 выше, но runfile выдает точно такую же ошибку.
Поэтому я также попытался снова запустить команду установки, которая утверждает, что:
cuda: Depends: cuda-9-2 (>= 9.2.148) but it is not going to be installed
libcuda1-396 : Depends: nvidia396 (>=396.37) but is not going to be installed
nvidia-opencl-icd-396 : Depends: nvdia-396 (>=396.37) but it is not going to be installed
E: Unmet dependencies. Try 'apt --fix-broken install' with no packages (or specify a solution)
Запуск, который приводит к той же ошибке.К этому моменту я даже удалил /usr/lib/x86_64-linux-gnu-libGLX_indirect.so.0, чтобы увидеть, есть ли разница, но просто выдает ту же ошибку вместе с:
sudo apt-get remove cuda
sudo apt-get autoremove --purge cuda
- Удалены файлы cuda из / var
- Удалить репо в
/etc/apt/sources.list.d
Я очень смущенпочему я не могу внезапно установить nvidia-драйверы и / или cuda-драйверы, так как знаю, что он работает, потому что он устанавливался месяцами без проблем ...