Я сейчас пытаюсь сравнить Horovod и Tensorflow Distributed API.
При использовании Horovod я могу получить доступ к общему количеству графических процессоров, используемых в настоящее время, следующим образом:
import horovod.tensorflow as hvd
size = hvd.size()
Аналогичная концепция доступна при использовании PyTorch Distributed API:
size = int(os.environ["WORLD_SIZE"])
Я хотел бы выполнить ту же операцию и получить количество графических процессоров, используемых в настоящее время для нескольких графических процессоров / узлов с официальным API TF Distributed.
Я не могу использовать CUDA_VISIBLE_DEVICES
переменная окружения, так как она будет работать только на одном узле.