У меня работает многопроцессорная среда NVidia, и я хочу отслеживать показатели производительности в режиме реального времени:
- Использование GPU
- Память GPU
- Приемопередача NVLink и PCIe (сумма интервала)
В конце это должно быть машиночитаемым (например, Прометей), но я думаю, что я могу это исправить.
Есть несколько различных приложений, работающих наэто, и я не могу взломать код, поэтому вход в CUDA не вариант.
В моем понимании, другие варианты не являются:
- DCGM, так как он не показываетметрики обо всех Tx / Rx подробно
nvprof
, поскольку они не работают в реальном времени и, по-видимому, будут устаревшими - Nsight Compute CLI, поскольку они не работают в реальном времени и не работаютПоказать трансивер в деталях
nvidia-smi dmon
, поскольку он показывает только PCI, а не NVLink
EDIT
Теперь я использую DCGM для базовых показателей производительности.Для показателей активности NVLINK и PCI я использую этот экспортер: https://github.com/Beuth-Erdelt/prometheus_nvlink_exporter