У меня есть возможность провести обучение Tensorflow на компьютере кластера с помощью диспетчера рабочей нагрузки slurm (кластер содержит почти 400000 ядер, 40000 ГБ ОЗУ, производительность Rmax = 500 тФлоп / с и Rpeak = 1000 тФлоп / с, драм GPU).
Я работаю над проектами обработки изображений с использованием алгоритмов глубокого обучения.
У меня вопрос, как масштабировать мое глубокое обучение keras для работы на этом кластере, используя slurm в качестве менеджера рабочей нагрузки?