Разрешение распределенного выполнения pytorch с печатью нескольких операторов журнала для каждого процесса? - PullRequest
0 голосов
/ 19 сентября 2019

Я использую распределенную среду Pytorch для обучения некоторых моделей, и в том же сценарии я также использую ведение журнала для печати состояния программы.Проблема в том, что с распределенным pytorch, так как он порождает несколько процессов, я вижу, что мои лог-операторы печатаются n раз, где n - это количество порождаемых процессов.Вот пример этого:

1.0, 0.05, 2.1823, 0.1703, 1.9799, 0.2352
1.0, 0.05, 2.1804, 0.1674, 1.9767, 0.2406
1.0, 0.05, 2.1814, 0.1697, 2.0053, 0.2154
2.0, 0.05, 2.1593, 0.1741, 2.0935, 0.192
2.0, 0.05, 2.1526, 0.1779, 2.1166, 0.1908
2.0, 0.05, 2.1562, 0.1812, 2.0868, 0.2076
3.0, 0.05, 1.9319, 0.2473, 1.8041, 0.2903
3.0, 0.05, 1.9386, 0.2413, 1.8037, 0.3017
3.0, 0.05, 1.9286, 0.2443, 1.815, 0.2939
4.0, 0.05, 1.7522, 0.3153, 1.828, 0.3131
4.0, 0.05, 1.7504, 0.3207, 1.7613, 0.3245
4.0, 0.05, 1.7522, 0.3223, 1.7841, 0.3209
5.0, 0.05, 1.5815, 0.3951, 1.5559, 0.4307
5.0, 0.05, 1.5767, 0.3939, 1.5326, 0.4205
5.0, 0.05, 1.588, 0.3909, 1.5882, 0.3995

Есть идеи, как избежать или решить эту проблему?Спасибо!

...