Я использую slurm для манипулирования gpus для обучения моей модели. Я настроил среду Python на узле A, где хранятся мой код и данные. Обычная практика такова:
srun -p gpu --ntasks-per-node=1 --gres=gpu:2 python train.py
Это позволит slurm найти для меня узел и запустить мой код на этом узле. Здесь я обнаружил, что мой код работает в 3 раза медленнее, чем на каком-то локальном компьютере с таким же количеством gpus. Я предполагаю, что причина в том, что данные, используемые в коде, хранятся на узле A, в то время как slurm назначил мне узел B для запуска моего кода. Таким образом, данные на узле A должны будут непрерывно передаваться с узла A на узел B, что замедляет процесс.
Вот мой вопрос: есть ли способ, которым я мог бы скопировать свои данные в узел B, чтобы код мог использовать данные, как на локальной машине?