Как отслеживать производительность графического процессора NVidia (использование, память и Tx / Rx) в реальном времени? - PullRequest
0 голосов
/ 29 сентября 2018

У меня работает многопроцессорная среда NVidia, и я хочу отслеживать показатели производительности в режиме реального времени:

  • Использование GPU
  • Память GPU
  • Приемопередача NVLink и PCIe (сумма интервала)

В конце это должно быть машиночитаемым (например, Прометей), но я думаю, что я могу это исправить.

Есть несколько различных приложений, работающих наэто, и я не могу взломать код, поэтому вход в CUDA не вариант.

В моем понимании, другие варианты не являются:

  • DCGM, так как он не показываетметрики обо всех Tx / Rx подробно
  • nvprof, поскольку они не работают в реальном времени и, по-видимому, будут устаревшими
  • Nsight Compute CLI, поскольку они не работают в реальном времени и не работаютПоказать трансивер в деталях
  • nvidia-smi dmon, поскольку он показывает только PCI, а не NVLink

EDIT

Теперь я использую DCGM для базовых показателей производительности.Для показателей активности NVLINK и PCI я использую этот экспортер: https://github.com/Beuth-Erdelt/prometheus_nvlink_exporter

...