Я использую mpirun (OpenMPI) с 86 процессами на 12 процессорах и 2 графическими процессорами в Ubuntu 18.04. Запускаемое приложение обучает нейронные сети.
После дня или около того тренировок итерации резко замедляются. Код отлично работает в одном потоке, сетевой трафик (чтение файлов) находится в пределах спецификации, а процессоры и графические процессоры не показывают чрезмерной нагрузки.
Так что я думаю, что проблема в mpirun.
Существуют ли неинтрузивные инструменты для демонстрации производительности прогонов MPI? Я смотрел на Performance Co-Pilot, но я не вижу никакого профилирования MPI в самом программном обеспечении.