Экземпляр AWS EC2 теряет поддержку графического процессора после перезагрузки - PullRequest
6 голосов
/ 20 марта 2019

При перезагрузке экземпляра во вторник я впервые столкнулся с проблемой потери поддержки графического процессора на компьютере AWS p2.xlarge с Ubuntu Deep Learning AMI.

Я тестировал его три раза за два дня, и у коллеги была такая же проблема, так что я думаю, что это ошибка AWS. Хотя, возможно, у кого-то есть идея, как его лучше отладить.

Обычно после завершения работы и перезагрузки в экземпляре больше не загружается модуль nvidia, загруженный в ядро. Кроме того, согласно dmesg, похоже, загружено другое ядро. Все это происходит без того, чтобы я его активно вызывал.

Вот шаги по воспроизведению проблемы с использованием свежего экземпляра и без пользовательского кода . Я работаю в Ирландии (eu-west-1), экземпляр запущен в зоне доступности eu-west-1a:

  • Запустил экземпляр с версией «Deep Learning AMI (Ubuntu)» 21,2 (ami-0e9085a8d461c2d01)
  • Тип экземпляра: p2.xlarge, все значения по умолчанию
  • Зайдя в инстанс, выполнили только следующие четыре команды:
ubuntu@...:~$ lsmod | grep nvidia
nvidia              16592896  0
ipmi_msghandler        49152  1 nvidia
dmesg | less
...
[    0.000000] Linux version 4.4.0-1075-aws (buildd@lgw01-amd64-035) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #85-Ubuntu SMP Thu Jan 17 17:15:12 UTC 2019 (Ubuntu 4.4.0-1075.85-aws 4.4.167)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1075-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...
ubuntu@...:~$ nvidia-smi
Tue Mar 19 16:41:53 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 00000000:00:1E.0 Off |                    0 |
| N/A   42C    P8    32W / 149W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
ubuntu@...:~$ sudo shutdown now
  • Экземпляр не закрывается сразу же, возможно, он запускает обновления, которые я НЕ активировал.
  • После того, как состояние показало «остановлено», снова запустите экземпляр через Консоль управления AWS
  • Запустил первые три команды:
ubuntu@...:~$ lsmod | grep nvidia
(no output)
dmesg | less
...
[    0.000000] Linux version 4.4.0-1077-aws (buildd@lcy01-amd64-021) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #87-Ubuntu SMP Wed Mar 6 00:03:05 UTC 2019 (Ubuntu 4.4.0-1077.87-aws 4.4.170)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1077-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...
ubuntu@...:~$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Как я могу заставить загрузиться с ядром 4.4.0-1075-aws? Поскольку это виртуализация hvm, я не могу выбрать ядро ​​непосредственно в диалоговом окне.

Ответы [ 2 ]

7 голосов
/ 22 марта 2019

Кажется, есть проблема со сборкой старых драйверов NVIDIA для ядер 4.4.0-107x-aws.Вы можете установить новые драйверы NVIDIA, которые должны нормально работать с текущим ядром:

wget http://us.download.nvidia.com/tesla/410.104/NVIDIA-Linux-x86_64-410.104.run
sudo sh ./NVIDIA-Linux-x86_64-410.104.run --no-drm --disable-nouveau --dkms --silent --install-libglvnd 

По словам представителя AWS, драйверы были обновлены в Deep Learning AMI 21/03/2019 [Форумы AWS ].

3 голосов
/ 08 апреля 2019

У меня возникла та же проблема, и она помогла мне сделать

sudo apt-get install nvidia-cuda-toolkit
sudo reboot

Удачи!

...