Я искал отчеты об использовании небольшого кластера для управления, но я немного запутался в цифрах. Мне нравится сообщать об использовании в целом, а также об использовании пользователей.
Мои вопросы, основанные на результатах, приведенных ниже:
- Какова модель вычислений, поскольку у нас более 100% использования при накоплении индивидуальных числа?
- Почему использование sreport показывает числа, отличные от накопленных чисел для других типов? Какова вычислительная модель и причина этой модели?
Мне не удалось найти информацию об этом топи c, чтобы ответить на вышеуказанные вопросы.
Ниже мои мои результаты (для простоты я сделал только один день. В кластере 32 графических процессора):
accountutilizationbyuser (удалены оставшиеся строки. Ключевым моментом является 117,74%, накопленное до root)
$ sreport cluster -tminper accountutilizationbyuser start=2020-05-20 end=2020-05-21 --tres=gres/gpu
--------------------------------------------------------------------------------
Cluster/Account/User Utilization 2020-05-20T00:00:00 - 2020-05-20T23:59:59 (86400 secs)
Usage reported in TRES Minutes/Percentage of Total
--------------------------------------------------------------------------------
Cluster Account Login Proper Name TRES Name Used
--------- --------------- --------- --------------- -------------- -----------------
ngc root gres/gpu 54252(117.74%)
.....
userutilizationbyaccount (удалены имена пользователей и c.):
tlj@its.aau.dk@nv-ai-fe01:~$ sreport cluster -tminper userutilizationbyaccount start=2020-05-20 end=2020-05-21 --tres=gres/gpu
--------------------------------------------------------------------------------
Cluster/User/Account Utilization 2020-05-20T00:00:00 - 2020-05-20T23:59:59 (86400 secs)
Usage reported in TRES Minutes/Percentage of Total
--------------------------------------------------------------------------------
Cluster Login Proper Name Account TRES Name Used
--------- --------- --------------- --------------- -------------- -----------------
ngc gres/gpu 2880(6.25%)
ngc gres/gpu 2281(4.95%)
ngc gres/gpu 4831(10.48%)
ngc gres/gpu 2298(4.99%)
ngc gres/gpu 4320(9.38%)
ngc gres/gpu 1440(3.12%)
ngc gres/gpu 1962(4.26%)
ngc gres/gpu 3637(7.89%)
ngc gres/gpu 3320(7.20%)
ngc gres/gpu 5760(12.50%)
ngc gres/gpu 1440(3.12%)
ngc gres/gpu 2383(5.17%)
ngc gres/gpu 2286(4.96%)
ngc gres/gpu 877(1.90%)
ngc gres/gpu 1681(3.65%)
ngc gres/gpu 1440(3.12%)
ngc gres/gpu 2880(6.25%)
ngc gres/gpu 1440(3.12%)
ngc gres/gpu 1414(3.07%)
ngc gres/gpu 2632(5.71%)
ngc gres/gpu 1058(2.30%)
ngc gres/gpu 0(0.00%)
ngc gres/gpu 965(2.09%)
ngc gres/gpu 388(0.84%)
ngc gres/gpu 220(0.48%)
ngc gres/gpu 178(0.39%)
ngc gres/gpu 55(0.12%)
ngc gres/gpu 81(0.18%)
ngc gres/gpu 19(0.04%)
ngc gres/gpu 41(0.09%)
ngc gres/gpu 31(0.07%)
ngc gres/gpu 16(0.04%)
ngc gres/gpu 0(0.00%)
ngc gres/gpu 0(0.00%)
tlj@its.aau.dk@nv-ai-fe01:~$ python
Python 2.7.12 (default, Apr 15 2020, 17:07:12)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> 6.25+4.95+10.48+4.99+9.38+3.12+4.26+7.89+7.20+12.50+3.12+5.17+4.96+1.9+3.65+3.12+6.25+3.12+3.07+5.71+2.30+2.09+0.84+0.48+0.39+0.12+0.18+0.04+0.09+0.07+0.04
117.73000000000005
использование:
$ sreport cluster -tminper utilization start=2020-05-20 end=2020-05-21 --tres=gres/gpu
--------------------------------------------------------------------------------
Cluster Utilization 2020-05-20T00:00:00 - 2020-05-20T23:59:59
Usage reported in TRES Minutes/Percentage of Total
--------------------------------------------------------------------------------
Cluster TRES Name Allocated Down PLND Down Idle Reserved Reported
--------- -------------- ----------------- ----------------- ----------------- ----------------- ----------------- -----------------
ngc gres/gpu 45894(99.60%) 0(0.00%) 0(0.00%) 186(0.40%) 0(0.00%) 46080(100.00%)
$ sreport --version
slurm 19.05.0