NVIDIA DevBox с универсальным ядром Ubuntu 16.04 и 4.4.0-137 случайным образом перезагружается и автоматически выключается в одночасье - PullRequest
0 голосов
/ 19 февраля 2019

Я недавно заявил, что использую NVIDIA DevBox с BIOS ASUS, с упомянутой выше версией ядра и версии Ubuntu.По некоторым причинам машина не может быть оставлена ​​включенной на ночь, как это обычно бывает на других ноутбуках и / или компьютерных машинах: если вы можете просто оставить ее включенной, она заблокируется через пару минут и / или перейдет в спящий режим- и на следующий день, когда вы перемещаете мышь или что-то печатаете на клавиатуре, компьютер «перестает работать» или «просыпается», и все ваши программы работают и работают так же, как вы оставили их в предыдущий день.

Длякакая-то странная причина, этого не было с этой машиной.До меня был предыдущий пользователь, который не прикасался к машине около года, поэтому возможно, что он или она выполнили какую-то настройку в отношении экономии энергии, но все выглядит хорошо, когда я проверяю вариант питанияв моей машине (у меня это для приостановки - 1 час, и блокировка 1 час).Полагаю, самое забавное, что я заметил, это то, что если я вернусь после обеда и машина заблокирована / приостановлена, она вернется к работе без проблем, но если я оставлю ее на ночь, то приеду на следующий день, иМашина автоматически отключилась.Здание заблокировано, поэтому кто-то еще не может физически нажать кнопку выключения в одночасье, и я также проверил команду истории от другого пользователя (у нас обоих есть права администратора, и он не использует компьютер), чтобыпроверьте отключение удаленного доступа, и оно тоже не появится.

В нескольких местах я читал, что это может быть проблема с нагревом из-за плохого или неисправного источника питания, но как я могу проверитьчто это так?У меня есть приложение psensor, но оно, похоже, регистрирует температуры только в режиме реального времени, не сохраняя их в файл, где я могу проверить, какая температура была у любой из видеокарт (их 4) или материнской платы.

Как еще можно диагностировать автоматическое отключение машины?Как я могу узнать, является ли это проблемой с отоплением или неисправным источником питания?Или, возможно, проблема с ядром?На данный момент на машине не установлены настоящие интенсивные программы (она почти новая), за исключением драйверов NVIDIA, с которыми у меня достаточно опыта установки, так что, может быть, я могу рассмотреть новую установку Ubuntu?- хотя это в значительной степени бессмысленно, если есть проблемы с оборудованием

Другие детали:

Драйверы NVIDIA установлены правильно.Водитель получил ошибку, и машина отреагировала довольно плохо, когда я ввел следующую команду, и машина была включена в течение 2 дней подряд (что должно быть бризом для этих машин), пока она не начала работать более 5 минут после2 последовательных случайных перезагрузки в середине ночи:

$ unset autologoff

Мне пришлось позже правильно переустановить драйверы (и снова включить опцию autolog), и система вернулась к своему текущему состоянию, где она "нужно "отключить себя, если он ничего не делает в течение более 24 часов (ничего не делает, так как в нем не принимается человеческий ввод, но процессы бэкэнда могут все еще работать).

  • Материнская плата:Материнские платы ASUS EATX DDR4 LGA 2011-3 X99-E WS / USB 3.1
  • Процессор: Intel Xeon E5-2690 v4 2,6 ГГц 14-ядерный процессор LGA 2011 135 Вт
  • Кулер: Corsair Hydro SeriesH80i v2 Extreme Performance Жидкий процессорный кулер, черный.
  • Источник питания: EVGA SuperNOVA 1600 P2 80+ PLATINUM, 1600 Вт ECO Mode Полностью модульный NVIDIA SLI и Crossfire Ready 10-летняя гарантия Источник питания 220-P2-1600-X1
  • Видеокарта: 4 TitanX Pascal.

Я добавил pci=noaer при загрузке, узнав, что машина выдала мне эту ошибку: https://askubuntu.com/questions/771899/pcie-bus-error-severity-corrected

Вывод:

$ cat /proc/cmdline

это

BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7

1 Ответ

0 голосов
/ 23 февраля 2019

Проблема была исправлена ​​загрузкой системы в Ubuntu 18.04.Корень ошибки не был найден, но я подозреваю, что это связано с тем, что ядро ​​потенциально не очень хорошо подходит для видеокарт, BIOS и версии Ubuntu 16.04.

...