Кластер, который я использую, имеет 4 графических процессора NVIDIA (P100) на узел. У меня есть код тензорного потока, который мне нужно запустить. На это уходит много часов, и я попытался использовать все 4 графических процессора, доступных на узле. но похоже, что он работает медленнее, если я использую все 4 графических процессора, чем если бы я использовал только 1GPU, и я не уверен, почему ... Какова лучшая стратегия, чтобы определить, сколько графических процессоров мне следует использовать для моей проблемы?