Question

При перезагрузке экземпляра во вторник я впервые столкнулся с проблемой потери поддержки графического процессора на компьютере AWS p2.xlarge с Ubuntu Deep Learning AMI.

Я тестировал его три раза за два дня, и у коллеги была такая же проблема, так что я думаю, что это ошибка AWS. Хотя, возможно, у кого-то есть идея, как его лучше отладить.

Обычно после завершения работы и перезагрузки в экземпляре больше не загружается модуль nvidia, загруженный в ядро. Кроме того, согласно dmesg, похоже, загружено другое ядро. Все это происходит без того, чтобы я его активно вызывал.

Вот шаги по воспроизведению проблемы с использованием свежего экземпляра и без пользовательского кода . Я работаю в Ирландии (eu-west-1), экземпляр запущен в зоне доступности eu-west-1a:

Запустил экземпляр с версией «Deep Learning AMI (Ubuntu)» 21,2 (ami-0e9085a8d461c2d01)
Тип экземпляра: p2.xlarge, все значения по умолчанию
Зайдя в инстанс, выполнили только следующие четыре команды:

ubuntu@...:~$ lsmod | grep nvidia
nvidia              16592896  0
ipmi_msghandler        49152  1 nvidia

dmesg | less
...
[    0.000000] Linux version 4.4.0-1075-aws (buildd@lgw01-amd64-035) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #85-Ubuntu SMP Thu Jan 17 17:15:12 UTC 2019 (Ubuntu 4.4.0-1075.85-aws 4.4.167)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1075-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...

ubuntu@...:~$ nvidia-smi
Tue Mar 19 16:41:53 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 00000000:00:1E.0 Off |                    0 |
| N/A   42C    P8    32W / 149W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

ubuntu@...:~$ sudo shutdown now

Экземпляр не закрывается сразу же, возможно, он запускает обновления, которые я НЕ активировал.
После того, как состояние показало «остановлено», снова запустите экземпляр через Консоль управления AWS
Запустил первые три команды:

ubuntu@...:~$ lsmod | grep nvidia
(no output)

dmesg | less
...
[    0.000000] Linux version 4.4.0-1077-aws (buildd@lcy01-amd64-021) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #87-Ubuntu SMP Wed Mar 6 00:03:05 UTC 2019 (Ubuntu 4.4.0-1077.87-aws 4.4.170)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1077-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...

ubuntu@...:~$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Как я могу заставить загрузиться с ядром 4.4.0-1075-aws? Поскольку это виртуализация hvm, я не могу выбрать ядро непосредственно в диалоговом окне.

alkamid · Answer 1 · 22 марта 2019

Кажется, есть проблема со сборкой старых драйверов NVIDIA для ядер 4.4.0-107x-aws.Вы можете установить новые драйверы NVIDIA, которые должны нормально работать с текущим ядром:

wget http://us.download.nvidia.com/tesla/410.104/NVIDIA-Linux-x86_64-410.104.run
sudo sh ./NVIDIA-Linux-x86_64-410.104.run --no-drm --disable-nouveau --dkms --silent --install-libglvnd

По словам представителя AWS, драйверы были обновлены в Deep Learning AMI 21/03/2019 [Форумы AWS ].

melaanya · Answer 2 · 08 апреля 2019

У меня возникла та же проблема, и она помогла мне сделать

sudo apt-get install nvidia-cuda-toolkit
sudo reboot

Удачи!

Экземпляр AWS EC2 теряет поддержку графического процессора после перезагрузки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Экземпляр AWS EC2 теряет поддержку графического процессора после перезагрузки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы