Какова лучшая практика мониторинга серверов с другим драйвером GPU с помощью cadvisor - PullRequest
0 голосов
/ 25 октября 2019

Для мониторинга использования pod gpu с помощью cadvisor нам нужно смонтировать доступ к пути к библиотеке NVML (например, / usr / lib / nvidia-418) к cadvisor.

В настоящее время я создаю набор демонов на k8sкластер для развертывания cadvisor на каждом узле.

Однако мне нужно поддерживать несколько версий пути к библиотеке NVML. Например, некоторые серверы используют / usr / lib / nvidia-418, тогда как другие используют / usr / lib / nvidia-410. Непосредственное указание пути nvml становится невозможным.

Итак, какова лучшая практика в этом случае?

У меня есть некоторые идеи, но я не уверен, что является лучшим.

  1. делить серверы по пути nvml, все серверы в одном кластере используют одну и ту же версию библиотеки nvml.

2.создать программную ссылку на каждом сервере, связать / usr / lib / nvidia-418 / * с/ usr / lib / nvmlpath.

3.добавить задание инициализации перед запуском cadvisor, создать мягкую ссылку в задании. Но я не уверен, что это будет работать.

4.добавить коляскуcadvisor для создания программной ссылки, но она не может гарантировать завершение коляски до того, как cadvisor получит путь nvml-пути.

построить образ докера на основе cadvisor, добавить процесс мягких ссылок в CMD.

1 Ответ

0 голосов
/ 25 октября 2019

Я не уверен, что это лучший способ, но для того, чтобы сохранить головные боли.

Я бы собрал cadvisor с помощью nvidia-docker, а затем установил для демона docker использование nvidia-container-runtime какdefault.

Единственное, чего требуют ваши разные серверы, это драйвер nvidia, который должен быть в порядке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...